Conjuntos de datos para proyectos en Ciencia de Datos

Conjuntos de datos para proyectos en Ciencia de Datos

Para probar los algoritmos utilizados en Ciencia de Datos, como los relacionados en la anterior publicación sobre «Tipos de aprendizaje automático y sus algoritmos«, es necesario tener los conjuntos de datos adecuados. El fin de esta publicación es dar a conocer algunas organizaciones que se han especializado en recopilar conjuntos de datos de diferentes temáticas, orientados a permitir la implementación de modelos «algoritmos» en Ciencia de Datos.

  1. Datos Abiertos Colombia: Portal que permite acceder a más de 10.000 conjuntos de datos sobre el estado colombiano, para investigar, crear aplicaciones, visualizaciones e historias.
  2. Data Catalogs: Acceda a más de 500 fuentes de datos de varios países. Excelente recurso. Solo debe seleccionar la región o continente y validar las ciudades que ofrecen datos abiertos.
  3. Kaggle: Permite acceder a más de 15.000 conjuntos de datos sobre temas de interés mundial. Sus principales ventajas son la calidad de los datos y la sugerencia sobre el tipo de algoritmo que se podría utilizar. Realizan concursos de analítica con excelentes premios. También poseen grandes conjuntos de datos para análisis Big Data.
  4. UCI – Machine Learning Repository: Posee más de 450 conjuntos de datos especializados para Machine Learning. Permite clasificar los conjuntos de datos por criterios como: tipos de datos, tipo de algoritmo, tipo de atributo, entre otros.
  5. Kdnuggets: Permite acceder a cientos de miles de conjuntos de datos sobre diferentes temáticas. Tiene acceso a repositorios de gobiernos, universidades, centros de investigación, organizaciones mundiales, entre otros.
  6. Data Science Central: Repositorio de datos que reúne a muchas organizaciones que proveen conjuntos de datos gratuitos para el desarrollo de proyectos relacionados con Ciencia de Datos. Incluye conjuntos de datos para Big Data.
  7. Socrata: Exclente repositorio con miles de conjuntos de datos para descargar y probar. Cobertura mundial.
  8. Academic Torrents: Acceso a más de 4.500 conjuntos de datos.
  9. Data Market: Librería con más de 120.000 conjuntos de datos para analizar series de tiempo. Excelente.
  10. Penflights: Completo repositorio sobre datos relacionados con aeropuertos, líneas aéreas, vuelos y rutas de todo el mundo.

Autor. Fredy Yarney Romero Moreno – fyrm

Leave a Reply