Ecosistema Hadoop: Avro

Ecosistema Hadoop: Avro

Avro es un sistema de serialización de datos, es decir, una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Dado que los proyectos en Hadoop suelen mover cantidades descomunales…

Habilidades requeridas en los Científicos de Datos de la tercera era

Habilidades requeridas en los Científicos de Datos de la tercera era

El portafolio de habilidades requeridas para los científicos de datos de la tercera era implica tener una mentalidad empresarial, ser fuerte en habilidades blandas, aprender técnicas de ingeniería de software y poseer un amplio conocimiento de herramientas analíticas modernas que…

Ecosistema Hadoop – HCatalog

Ecosistema Hadoop – HCatalog

Es una capa de gestión de tablas y almacenamiento para Hadoop. HCatalog admite diferentes componentes disponibles en los ecosistemas de Hadoop como MapReduce, Hive y Pig para leer y escribir fácilmente los datos del clúster. HCatalog es un componente clave…

Los mejores proyectos Machine Learning para emprender

Los mejores proyectos Machine Learning para emprender

El aprendizaje automático (Machine Learning) es un área de interés que hace que las máquinas puedan aprender a partir de algoritmos. En esta publicación quiero compartir algunos proyectos o ideas de interés en los que puede emprender. Estos proyectos son…

Ecosistema Hadoop – HBase

Ecosistema Hadoop – HBase

Apache HBase es un componente del ecosistema de Hadoop. Es una base de datos distribuida que fue diseñada para almacenar datos estructurados en tablas que podrían tener miles de millones de filas y millones de columnas. HBase es una base…

Ecosistema Hadoop – Pig

Ecosistema Hadoop – Pig

Apache Pig es una plataforma de lenguaje de alto nivel para analizar y consultar grandes conjuntos de datos almacenados en HDFS. Pig como componente de Hadoop Ecosystem utiliza el lenguaje PigLatin. Es muy similar a SQL. Carga los datos, aplica…

Ecosistema Hadoop – Hive

Ecosistema Hadoop – Hive

El componente del ecosistema de Hadoop, Apache Hive, es un sistema de almacenamiento de datos de código abierto para consultar y analizar grandes conjuntos de datos almacenados en archivos Hadoop. Inicialmente, se debía escribir trabajos complejos de Map-Reduce, pero ahora…

Ecosistema Hadoop – YARN

Ecosistema Hadoop – YARN

Hadoop YARN (otro negociador de recursos) es un componente del ecosistema de Hadoop que proporciona la gestión de recursos. Es uno de los componentes más importantes del ecosistema Hadoop. YARN se denomina como el sistema operativo de Hadoop ya que…

Ecosistema Hadoop – MapReduce

Ecosistema Hadoop – MapReduce

Hadoop MapReduce es el componente central del ecosistema de Hadoop que proporciona procesamiento de datos. MapReduce es un marco de software para escribir aplicaciones que procesan la gran cantidad de datos estructurados y no estructurados almacenados en el sistema de…

Ecosistema Hadoop – HDFS (Hadoop Distributed File System)

Ecosistema Hadoop – HDFS (Hadoop Distributed File System)

HDFS es el componente más importante del ecosistema Hadoop. HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable,…