Cuando tienes un conjunto de datos, no basta con saber el promedio. Necesitas saber cómo están distribuidos esos datos — dónde se concentran, qué tan dispersos están, si hay valores extremos. Eso es una distribución.
¿Qué es una distribución?
Una distribución describe cómo se reparten los valores de una variable. Responde preguntas como: ¿la mayoría de los valores están cerca del promedio, o muy dispersos? ¿Hay más valores altos que bajos?
La forma más común de visualizar una distribución es el histograma: divide los valores en rangos (bins) y muestra cuántos datos caen en cada rango.
La distribución normal (campana de Gauss)
Es la distribución más conocida. Tiene forma de campana simétrica alrededor de la media.
████
████████
████████████
████████████████
████████████████████
Características:
- La mayoría de los valores se concentran alrededor de la media
- Es perfectamente simétrica
- Media = mediana = moda
Ejemplos reales: estatura de personas, errores de medición, notas en exámenes con muchos estudiantes.
Distribuciones sesgadas
Sesgo positivo (cola hacia la derecha)
La mayoría de los valores son bajos, pero hay algunos valores muy altos que alargan la cola hacia la derecha.
Ejemplos: salarios (la mayoría gana poco, unos pocos ganan muchísimo), precio de viviendas, número de seguidores en redes sociales.
En este caso: media > mediana. El promedio es "jalado" hacia arriba por los valores extremos.
Sesgo negativo (cola hacia la izquierda)
La mayoría de los valores son altos, pero hay algunos muy bajos.
Ejemplos: edad de jubilación (la mayoría se jubila tarde, pocos muy temprano), notas en un examen fácil.
Dispersión: no solo importa el centro
Dos distribuciones pueden tener la misma media pero muy diferente dispersión:
Grupo A: [48, 49, 50, 51, 52] → media = 50, muy concentrado
Grupo B: [10, 20, 50, 80, 90] → media = 50, muy disperso
Para medir la dispersión se usan:
- Rango: valor máximo - valor mínimo
- Desviación estándar: qué tan lejos están los valores del promedio en promedio
- Varianza: el cuadrado de la desviación estándar
Ejemplo en Python
import pandas as pd
import matplotlib.pyplot as plt
datos = [22, 25, 23, 28, 24, 26, 25, 27, 23, 24, 25, 26, 150]
serie = pd.Series(datos)
print(f"Media: {serie.mean():.1f}") # 26.8 (afectada por 150)
print(f"Mediana: {serie.median():.1f}") # 25.0
print(f"Desv. estándar: {serie.std():.1f}") # 33.7
serie.hist(bins=10)
plt.show()
El histograma mostraría claramente que casi todos los valores están entre 22-28 y hay un valor atípico en 150.
Por qué importa conocer la distribución
- Elegir la estadística correcta (media vs mediana)
- Detectar outliers que pueden ser errores o casos especiales
- Saber si los datos cumplen los supuestos de ciertos análisis estadísticos
- Entender mejor el fenómeno que estás estudiando
Errores frecuentes
Asumir que todos los datos son normales: muchos fenómenos reales tienen distribuciones sesgadas. No asumas normalidad sin verificarla.
Ignorar los outliers: pueden ser errores de registro o pueden ser los casos más interesantes para analizar. Nunca los borres sin investigar primero.
Aprende haciendo, no solo leyendo
Leer es el primer paso. El verdadero aprendizaje ocurre cuando practicas con ejercicios reales de SQL y recibes corrección inmediata de IA.
Comenzar gratis →