Hadoop

Ecosistema Hadoop: Thrift

Ecosistema Hadoop: Thrift

Es un lenguaje de definición de interfaces y un protocolo de comunicación binaria utilizado para crear servicios en varios tipos de lenguajes. Originalmente Apache Thrift fue desarrollado por Facebook para poder obtener escalabilidad (adaptabilidad) en el desarrollo de servicios (web)…

Ecosistema Hadoop: Avro

Ecosistema Hadoop: Avro

Avro es un sistema de serialización de datos, es decir, una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Dado que los proyectos en Hadoop suelen mover cantidades descomunales…

Ecosistema Hadoop – HCatalog

Ecosistema Hadoop – HCatalog

Es una capa de gestión de tablas y almacenamiento para Hadoop. HCatalog admite diferentes componentes disponibles en los ecosistemas de Hadoop como MapReduce, Hive y Pig para leer y escribir fácilmente los datos del clúster. HCatalog es un componente clave…

Ecosistema Hadoop – HBase

Ecosistema Hadoop – HBase

Apache HBase es un componente del ecosistema de Hadoop. Es una base de datos distribuida que fue diseñada para almacenar datos estructurados en tablas que podrían tener miles de millones de filas y millones de columnas. HBase es una base…

Ecosistema Hadoop – Pig

Ecosistema Hadoop – Pig

Apache Pig es una plataforma de lenguaje de alto nivel para analizar y consultar grandes conjuntos de datos almacenados en HDFS. Pig como componente de Hadoop Ecosystem utiliza el lenguaje PigLatin. Es muy similar a SQL. Carga los datos, aplica…

Ecosistema Hadoop – Hive

Ecosistema Hadoop – Hive

El componente del ecosistema de Hadoop, Apache Hive, es un sistema de almacenamiento de datos de código abierto para consultar y analizar grandes conjuntos de datos almacenados en archivos Hadoop. Inicialmente, se debía escribir trabajos complejos de Map-Reduce, pero ahora…

Ecosistema Hadoop – YARN

Ecosistema Hadoop – YARN

Hadoop YARN (otro negociador de recursos) es un componente del ecosistema de Hadoop que proporciona la gestión de recursos. Es uno de los componentes más importantes del ecosistema Hadoop. YARN se denomina como el sistema operativo de Hadoop ya que…

Ecosistema Hadoop – MapReduce

Ecosistema Hadoop – MapReduce

Hadoop MapReduce es el componente central del ecosistema de Hadoop que proporciona procesamiento de datos. MapReduce es un marco de software para escribir aplicaciones que procesan la gran cantidad de datos estructurados y no estructurados almacenados en el sistema de…

Ecosistema Hadoop – HDFS (Hadoop Distributed File System)

Ecosistema Hadoop – HDFS (Hadoop Distributed File System)

HDFS es el componente más importante del ecosistema Hadoop. HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable,…

¿Por qué Hadoop es la herramienta más popular para Big Data?

¿Por qué Hadoop es la herramienta más popular para Big Data?

Apache Hadoop es la herramienta de big data más popular y potente. Hadoop proporciona la capa de almacenamiento más confiable del mundo «HDFS«, un motor de procesamiento por lotes «MapReduce» y una capa de administración de recursos «YARN«. Algunas de…