Ecosistema Hadoop – Componentes

Ecosistema Hadoop – Componentes

Apache™ Hadoop® es un proyecto de software de código abierto que se puede utilizar para almacenar, procesar y analizar de forma eficaz, grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más. En lugar de utilizar un equipo grande para procesar y almacenar los datos, Hadoop facilita la creación de clústeres de hardware de consumo para analizar conjuntos de datos masivos en paralelo.

El ecosistema de Hadoop contiene numerosas aplicaciones y motores de ejecución, lo que aporta una variedad de herramientas para satisfacer las necesidades de sus cargas de trabajo de análisis.

Componentes del ecosistema Hadoop. Tomado de https://bit.ly/2JgZwjx
  • HDFS: capa de almacenamiento distribuido – Sistema de archivos.
  • Yarn: capa de gestión de recursos.
  • Mapreduce: capa de procesamiento paralelo.
  • HBase: es una base de datos orientada a columnas que se ejecuta sobre HDFS. Es una base de datos NoSQL que no comprende la consulta estructurada. Para el conjunto de datos no estructurados, se adapta muy bien.
  • Hive: es una infraestructura de almacenamiento de datos basada en Hadoop y permite un fácil resumen de los datos, mediante consultas SQL.
  • Pig: es un lenguaje de scripting de nivel superior. Permite escribir procesos complejos de datos sin programación Java.
  • Flume: es un sistema confiable para recopilar de manera eficiente grandes cantidades de datos de muchas fuentes diferentes en tiempo real.
  • Sqoop: es una herramienta de diseño para transportar grandes volúmenes de datos entre Hadoop y RDBMS (bases de datos relacionales).
  • Oozie: es una aplicación web de Java que se utiliza para programar trabajos de Apache Hadoop. Combina múltiples trabajos secuencialmente en una unidad lógica de trabajo.
  • Zookeeper: un servicio centralizado para mantener la información de configuración, asignar nombres, proporcionar sincronización distribuida y brindar servicios grupales.
  • Mahout: una biblioteca de algoritmos escalables de aprendizaje automático, implementada sobre Apache Hadoop y utilizando el paradigma MapReduce.
  • Avro: es un proyecto de código abierto que proporciona servicios de serialización e intercambio de datos para Hadoop. Estos servicios se pueden utilizar juntos o de forma independiente. Big Data puede intercambiar programas escritos en diferentes idiomas utilizando Avro.
  • Ambari: es una plataforma de administración para aprovisionar, administrar, monitorear y proteger el clúster de apache Hadoop. La administración de Hadoop se simplifica a medida que Ambari proporciona una plataforma consistente y segura para el control operativo.
  • HCatalog: Es una capa de gestión de tablas y almacenamiento para Hadoop. HCatalog admite diferentes componentes disponibles en los ecosistemas de Hadoop como MapReduce, Hive y Pig para leer y escribir fácilmente los datos del clúster. HCatalog es un componente clave de Hive que permite al usuario almacenar sus datos en cualquier formato y estructura. Por defecto, HCatalog es compatible con los formatos de archivo RCFile, CSV, JSON, sequenceFile y ORC.

Referencias:

Leave a Reply