Ecosistema Hadoop – Pig

Ecosistema Hadoop – Pig

Apache Pig es una plataforma de lenguaje de alto nivel para analizar y consultar grandes conjuntos de datos almacenados en HDFS. Pig como componente de Hadoop Ecosystem utiliza el lenguaje PigLatin. Es muy similar a SQL. Carga los datos, aplica los filtros necesarios y vuelca los datos en el formato requerido. Para la ejecución de programas, Pig requiere un entorno de ejecución de Java.

Funcionamiento de Pig. Tomado de https://bit.ly/2JgZwjx

Características de Apache Pig:

  1. Rich Set of Operators (Amplio conjunto de operadores): Pig posee un gran conjunto de operadores para realizar operaciones como unir, archivar, clasificar y muchos más.
  2. Ease of Programming (Facilidad de programación): PigLatin es similar a SQL y, por lo tanto, a los desarrolladores les resulta muy fácil escribir un script de Pig. Si tiene conocimiento del lenguaje SQL, entonces es muy fácil aprender el lenguaje PigLatin ya que es similar al lenguaje SQL.
  3. Optimization opportunities (Oportunidades de optimización): la ejecución de la tarea en Apache Pig se optimiza automáticamente por la propia tarea, por lo tanto, los programadores solo tienen que centrarse en la semántica del lenguaje.
  4. Extensibility (Extensibilidad): Al usar los operadores existentes, los usuarios pueden desarrollar fácilmente sus propias funciones para leer, procesar y escribir datos.
  5. User Define Functions (UDFsFunciones definidas por el usuario ): Con la ayuda de las facilidades de Pig para crear UDF, podemos crear funciones definidas por el usuario fácilmente en varios lenguajes de programación como Java e invocarlos o incrustarlos en Pig Scripts.
  6. All types of data handling (Todos los tipos de manejo de datos): Apache Pig proporciona el análisis de todos los tipos de datos (es decir, tanto estructurados como no estructurados) y los resultados se almacenan dentro de HDFS.
Características de Pig. Tomado de https://bit.ly/2l9BSvS

Referencias:

Leave a Reply