Para aprender análisis de datos necesitas datos reales. Afortunadamente, hay cientos de fuentes públicas y gratuitas donde encontrar datasets sobre casi cualquier tema. Saber dónde buscarlos es una habilidad tan importante como saber analizarlos.
¿Qué es un dataset?
Un dataset es un conjunto de datos organizado, generalmente en formato tabular (CSV, Excel). Puede ser una tabla de ventas, los resultados de una encuesta, datos de sensores climáticos, o estadísticas de un país.
Fuentes generales
Kaggle
La plataforma más popular para ciencia de datos. Tiene miles de datasets en todos los temas, muchos con notebooks de análisis como referencia. Ideal para practicar y participar en competencias.
Útil para: aprendizaje, competencias, proyectos personales.
UCI Machine Learning Repository
Colección académica con cientos de datasets clásicos: iris, titanic, wine quality. Son los más usados en tutoriales y libros de texto.
Útil para: aprender algoritmos, reproducir ejemplos de libros.
Google Dataset Search
Buscador de Google especializado en datasets. Indexa datasets de miles de fuentes distintas.
Útil para: encontrar datos sobre temas específicos.
Datos gubernamentales y oficiales
Datos de Chile
- datos.gob.cl — portal de datos abiertos del gobierno chileno
- INE (ine.cl) — estadísticas de población, empleo, inflación
- Banco Central (bcentral.cl) — indicadores económicos y financieros
Datos de América Latina
- CEPAL — estadísticas socioeconómicas regionales
- Banco Mundial (data.worldbank.org) — indicadores de desarrollo mundial
- FMI — datos macroeconómicos globales
Salud
- OPS/OMS — estadísticas de salud para América Latina
- MINSAL (datos abiertos de ministerios de salud)
APIs públicas: datos en tiempo real
Algunas fuentes ofrecen acceso a datos actualizados mediante API:
import requests
import pandas as pd
# Ejemplo: tipo de cambio desde una API pública
respuesta = requests.get('https://mindicador.cl/api')
datos = respuesta.json()
print(f"UF: {datos['uf']['valor']}")
print(f"USD: {datos['dolar']['valor']}")
Otras APIs útiles: OpenWeatherMap (clima), NewsAPI (noticias), Alpha Vantage (datos financieros).
Cómo evaluar la calidad de un dataset
Antes de usar un dataset, revisa:
- Fuente: ¿quién lo generó y con qué metodología?
- Actualización: ¿cuándo fue el último update?
- Completitud: ¿cuántos valores faltantes tiene?
- Documentación: ¿qué significa cada columna?
- Licencia: ¿puedes usarlo libremente?
import pandas as pd
df = pd.read_csv('dataset.csv')
print(df.shape)
print(df.isnull().sum() / len(df) * 100) # % de valores faltantes
print(df.dtypes)
Datasets para empezar a practicar
| Dataset | Tema | Dónde encontrarlo |
|---|---|---|
| Titanic | Clasificación | Kaggle |
| Iris | Clustering | sklearn |
| COVID-19 | Series de tiempo | Our World in Data |
| Precios de vivienda | Regresión | Kaggle |
| Ventas retail | Análisis exploratorio | Kaggle |
Errores frecuentes
Usar datos sin entender su origen: un dataset puede tener sesgos inherentes según cómo fue recolectado. Siempre lee la documentación.
Trabajar con datos desactualizados: para análisis que requieren vigencia (mercado, salud, economía), verifica la fecha de actualización.
Aprende haciendo, no solo leyendo
Leer es el primer paso. El verdadero aprendizaje ocurre cuando practicas con ejercicios reales de SQL y recibes corrección inmediata de IA.
Comenzar gratis →