Las matemáticas y la estadística son esenciales para aprender la Ciencia de los Datos

Las matemáticas y la estadística son esenciales para aprender la Ciencia de los Datos

Las matemáticas son la base de cualquier disciplina contemporánea de la ciencia. Casi todas las técnicas de la ciencia moderna de datos, incluido el aprendizaje automático, tienen una base matemática profunda.

La ciencia de datos es un campo que reúne varias disciplinas como matemáticas, estadística, probabilidad, inteligencia artificial, programación, entre otras, que involucran métodos científicos, procesos y sistemas para comprender los datos (sin importar la variedad y el volumen), y extraer conocimiento que contribuya al mejoramiento de las organizaciones.

Incursionar en la Ciencia de los Datos requiere de ciertos conocimientos básicos en matemáticas:Funciones, variables, ecuaciones y gráficas: Esta área de matemáticas cubre los conceptos básicos, desde la ecuación de una línea hasta el teorema del binomio y sus propiedades:

Funciones, variables, ecuaciones y gráficas: Esta área de matemáticas cubre los conceptos básicos, desde la ecuación de una línea hasta el teorema del binomio y sus propiedades:

  • Logaritmo, exponencial, funciones polinomiales y números racionales.
  • Geometría básica y teoremas, identidades trigonométricas.
  • Números reales y complejos, propiedades básicas.
  • Series, sumas, desigualdades.
  • Graficación y trazado, coordenadas cartesianas y polares, secciones cónicas.

Estadística:

  • Resúmenes de datos y estadísticas descriptivas, tendencia central, varianza, covarianza, correlación.
  • Probabilidad básica: idea básica, expectativa, cálculo de probabilidad, teorema de Bayes, probabilidad condicional.
  • Funciones de distribución de probabilidad: uniforme, normal, binomial, chi-cuadrado, distribución T-Student, teorema del límite central.
  • Muestreo, medición, error, generación de números aleatorios.
  • Pruebas de hipótesis, pruebas A / B, intervalos de confianza, p-values.
  • ANOVA, t-test.
  • Regresión lineal, regularización.

Álgebra Lineal: Esta es una rama esencial de las matemáticas para comprender cómo funcionan los algoritmos de aprendizaje automático en un flujo de datos para crear una perspectiva.

  • Propiedades básicas de la matriz y los vectores: multiplicación escalar, transformación lineal, transposición, conjugado, rango, determinante.
  • Productos internos y externos, regla de multiplicación de matrices y varios algoritmos, matriz inversa.
  • Matrices especiales: matriz cuadrada, matriz de identidad, matriz triangular, idea sobre matrices dispersas y densas, vectores unitarios, matriz simétrica, entre otras.
  • Concepto de factorización de matriz / descomposición de LU, eliminación de Gauss / Gauss-Jordan, resolviendo Ax = b sistema de ecuación lineal.
  • Espacio vectorial, base, rango, ortogonalidad, ortonormalidad, mínimo cuadrado lineal.
  • Valores propios, vectores propios, diagonalización, descomposición de valores singulares.

Cálculo: Aparece en numerosos lugares en la ciencia de datos y el aprendizaje automático. Se esconde detrás de la sencilla solución analítica de un problema de mínimos cuadrados ordinarios en regresión lineal o incrustado en cada propagación hacia atrás que su red neuronal hace para aprender un nuevo patrón.

  • Funciones de variable única, límite, continuidad, diferenciabilidad.
  • Teoremas del valor medio, formas indeterminadas, regla de L’Hospital.
  • Máxima y mínima
  • Regla de producto y cadena
  • Serie de Taylor, conceptos de suma / integración de series infinitas.
  • Teoremas fundamentales y de valor medio del cálculo integral, evaluación de integrales definidas e impropias
  • Funciones beta y gamma
  • Funciones de variables múltiples, límite, continuidad, derivadas parciales.
  • Fundamentos de ecuaciones diferenciales ordinarias y parciales.

Matemáticas Discretas:

  • Conjuntos, subconjuntos, conjuntos de potencia.
  • Funciones de conteo, combinatoria, contabilidad.
  • Técnicas básicas de prueba: inducción, prueba por contradicción.
  • Fundamentos de la lógica inductiva, deductiva y proposicional.
  • Estructuras de datos básicas: pilas, colas, gráficos, matrices, tablas hash, árboles.
  • Grafos: componentes conectados, grado, flujo máximo, corte mínimo, graficación.
  • Ecuaciones y relaciones de recurrencia.
  • Complejidad algorítmica O(n)

Optimización e investigación operativa: Estos temas son más relevantes en campos especializados como la informática teórica, la teoría de control o la investigación de operaciones. Pero una comprensión básica de estas poderosas técnicas también puede ser fructífera en la práctica del aprendizaje automático. Prácticamente todos los algoritmos de aprendizaje de máquina buscan minimizar algún tipo de error de estimación sujeto a varias restricciones, lo cual es un problema de optimización. Aquí están los temas para aprender:

  • Conceptos básicos de optimización, cómo formular el problema.
  • Máxima, mínima, función convexa, solución global.
  • Programación lineal, algoritmo simplex.
  • Programación entera.
  • Programación de restricciones, problema de mochila.
  • Técnicas de optimización aleatoria: escalada, recocido simulado, algoritmos genéticos

Elaborado por Fredy Yarney Romero Moreno. Basado en: https://medium.com/s/story/essential-math-for-data-science-why-and-how-e88271367fbd

Leave a Reply