Ecosistema Hadoop – Hive

Ecosistema Hadoop – Hive

El componente del ecosistema de Hadoop, Apache Hive, es un sistema de almacenamiento de datos de código abierto para consultar y analizar grandes conjuntos de datos almacenados en archivos Hadoop. Inicialmente, se debía escribir trabajos complejos de Map-Reduce, pero ahora con la ayuda de Hive, solo necesita enviar consultas de SQL. Hive está dirigido principalmente a usuarios que se sienten cómodos con SQL.

Hive abstrae la complejidad de Hadoop. Lo principal a tener en cuenta es que no es necesario aprender Java para Hive. Generalmente, Hive se ejecuta en su estación de trabajo y convierte su consulta SQL en una serie de trabajos para ejecutar en un clúster de Hadoop. Apache Hive organiza los datos en tablas. Esto proporciona un medio para adjuntar la estructura a los datos almacenados en HDFS.

Hive realiza tres funciones principales:

  • resumen de datos,
  • consulta y,
  • análisis.

Hive usa un lenguaje llamado HiveQL (HQL), que es similar a SQL. HiveQL traduce automáticamente consultas similares a SQL en trabajos de MapReduce que se ejecutarán en Hadoop.

Hadoop Hive – Tomado de https://bit.ly/2JgZwjx

Las partes principales de Hive son:

  • Metastore – Almacena los metadatos.
  • Controlador: administra el ciclo de vida de una declaración HiveQL.
  • Compilador de consultas: compila HiveQL en un gráfico acíclico dirigido (DAG).
  • Servidor Hive: proporciona una interfaz de ahorro y un servidor JDBC / ODBC.
Arquitectura Hive y sus componentes. Tomado de https://bit.ly/2L8W3tM

Referencias:

Leave a Reply