Big Data

Tendencias analíticas avanzadas

Tendencias analíticas avanzadas

El mundo ha visto una explosión de datos de nuevas fuentes digitales como las redes sociales, internet de las cosas, repositorios de datos públicos y muchas otras fuentes. A medida que aumenta el volumen y la complejidad de los datos,…

El ciclo de vida de los datos

El ciclo de vida de los datos

La minería de datos no es una tarea sencilla, implica tener claridad en la forma como debemos abordar los procesos de recolección, transformación, análisis y comunicación de resultados. Algunas fases que nos pueden ayudar en esta tarea se encuentran a…

Ecosistema Hadoop: Thrift

Ecosistema Hadoop: Thrift

Es un lenguaje de definición de interfaces y un protocolo de comunicación binaria utilizado para crear servicios en varios tipos de lenguajes. Originalmente Apache Thrift fue desarrollado por Facebook para poder obtener escalabilidad (adaptabilidad) en el desarrollo de servicios (web)…

Ecosistema Hadoop: Avro

Ecosistema Hadoop: Avro

Avro es un sistema de serialización de datos, es decir, una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Dado que los proyectos en Hadoop suelen mover cantidades descomunales…

Ecosistema Hadoop – HCatalog

Ecosistema Hadoop – HCatalog

Es una capa de gestión de tablas y almacenamiento para Hadoop. HCatalog admite diferentes componentes disponibles en los ecosistemas de Hadoop como MapReduce, Hive y Pig para leer y escribir fácilmente los datos del clúster. HCatalog es un componente clave…

Ecosistema Hadoop – HBase

Ecosistema Hadoop – HBase

Apache HBase es un componente del ecosistema de Hadoop. Es una base de datos distribuida que fue diseñada para almacenar datos estructurados en tablas que podrían tener miles de millones de filas y millones de columnas. HBase es una base…

Ecosistema Hadoop – Pig

Ecosistema Hadoop – Pig

Apache Pig es una plataforma de lenguaje de alto nivel para analizar y consultar grandes conjuntos de datos almacenados en HDFS. Pig como componente de Hadoop Ecosystem utiliza el lenguaje PigLatin. Es muy similar a SQL. Carga los datos, aplica…

Ecosistema Hadoop – Hive

Ecosistema Hadoop – Hive

El componente del ecosistema de Hadoop, Apache Hive, es un sistema de almacenamiento de datos de código abierto para consultar y analizar grandes conjuntos de datos almacenados en archivos Hadoop. Inicialmente, se debía escribir trabajos complejos de Map-Reduce, pero ahora…

Ecosistema Hadoop – YARN

Ecosistema Hadoop – YARN

Hadoop YARN (otro negociador de recursos) es un componente del ecosistema de Hadoop que proporciona la gestión de recursos. Es uno de los componentes más importantes del ecosistema Hadoop. YARN se denomina como el sistema operativo de Hadoop ya que…