El ciclo de vida de los datos

El ciclo de vida de los datos

La minería de datos no es una tarea sencilla, implica tener claridad en la forma como debemos abordar los procesos de recolección, transformación, análisis y comunicación de resultados. Algunas fases que nos pueden ayudar en esta tarea se encuentran a continuación. Sin embargo, no son camisa de fuerza, pues los datos son dinámicos y por lo tanto su análisis no puede estar sujeto a una secuencia de pasos, no siempre funciona así.

Podemos decir que el ciclo de vida de los datos viaja a través de las siguientes seis fases:

  1. Descubrimiento
  2. Preparación de datos
  3. Planear el modelo (Explorar / Transformar Datos)
  4. Construir el modelo
  5. Comunicar Resultados / Publicar Perspectivas
  6. Operacionalizar / Medir la Efectividad

Descubrimiento:

En esta fase inicial, desarrollará metas claras y un plan de cómo alcanzar esas metas. Querrá identificar de dónde provienen sus datos y qué historia desea que cuenten sus datos. Si planea realizar una prueba de hipótesis de sus datos, esta es la etapa en la que desarrollará una hipótesis clara y decidirá qué pruebas de hipótesis utilizará. Una forma de pensar acerca de esta fase es que se está enfocando en los requisitos del negocio, en lugar de los datos en sí. Los datos se pueden recopilar en esta etapa, pero no trabajará con los datos. Más bien, simplemente identificará áreas de datos aproximadas o vagas que podrían ser aplicables a sus objetivos.

Preparación de datos:

En esta segunda etapa, el enfoque cambia de los requisitos empresariales a los requisitos de datos. La preparación de datos es cada tarea relacionada con la recopilación, el procesamiento y la limpieza de datos. Quizás una de las partes más importantes de este paso es asegurarse de que los datos que necesita estén realmente disponibles. Los datos sin procesar son preferibles a los agregados, aunque ambos tipos pueden ser útiles para propósitos de comparación. Es posible que deba realizar ajustes en la cantidad o el tipo de datos que necesita, dependiendo de los datos disponibles. En esta fase temprana, los datos se recogen pero no se analizan. Los datos se capturan de tres formas principales:

  • Adquisición de datos: obtención de datos existentes de fuentes externas.
  • Entrada de datos: creación de nuevos valores de datos a partir de datos ingresados dentro de la organización.
  • Señal de recepción: captura de datos creados por dispositivos.

Planear el modelo (Explorar / Transformar Datos):

En el paso anterior ha recopilado los datos, que pueden estar estructurados (claramente definidos con patrones), no estructurados o semiestructurados. Ahora es el momento de cargar y explorar los datos disponibles. Muchas técnicas están disponibles para cargar datos. Algunos ejemplos:

  • ETL (Extraer, Transformar y Cargar) transforma los datos utilizando un conjunto de reglas de negocios, antes de cargarlos en una caja de arena.
  • ELT (Extraer, cargar y transformar) carga datos sin procesar en el recinto de seguridad y luego transforma los datos.
  • ETLT (Extraer, Transformar, Cargar, Transformar) tiene dos niveles de transformación. La primera transformación se utiliza a menudo para eliminar el ruido.

Si los datos están sesgados, observar una distribución logarítmica puede ayudar a entender los patrones subyacentes de los datos. Una distribución unimodal (única) puede indicar una sola población, mientras que una distribución multimodal (con muchos picos) indica múltiples fuentes. Los datos sucios se pueden filtrar en esta fase, o simplemente eliminar. En esta etapa, también puede usar herramientas y técnicas como agregación, integración y depuración de datos.

Construir el modelo:

Construir un modelo implica dos fases:

  • Diseñar el modelo: identificar un modelo adecuado (por ejemplo, una distribución normal). Este paso puede involucrar varias técnicas de modelado diferentes para identificar un modelo adecuado. Estos pueden incluir árboles de decisión, técnicas de regresión (como regresión logística) y redes neuronales.
  • Ejecutar el modelo: el modelo se ejecuta contra los datos para garantizar que el modelo se ajuste a ellos.

Comunicar resultados / Publicar perspectivas:

Generalmente, «comunicar resultados» significa que se comunican los resultados dentro de una organización, mientras que «publicar» se refiere a poner los resultados a disposición de entidades externas a la organización. Para comunicar los resultados, hay cuatro tipos básicos de presentación:

  • Comparación
  • Composición
  • Distribución
  • Relación
Gráficos recomendados para presentar resultados en datos. Recuperado de: https://bit.ly/2JraS6M

Operacionalizar / Medir la efectividad:

Esta fase final mueve los datos crudos a un entorno real. Los datos se monitorean y analizan para ver si el modelo generado está creando los resultados esperados. Si los resultados no son los esperados, puede volver a cualquiera de las fases anteriores para modificar los datos y perfeccionar el modelo.

Referencias:

Leave a Reply