Qué es una distribución de datos y cómo interpretarla

Cuando tienes un conjunto de datos, no basta con saber el promedio. Necesitas saber cómo están distribuidos esos datos — dónde se concentran, qué tan dispersos están, si hay valores extremos. Eso es una distribución.

¿Qué es una distribución?

Una distribución describe cómo se reparten los valores de una variable. Responde preguntas como: ¿la mayoría de los valores están cerca del promedio, o muy dispersos? ¿Hay más valores altos que bajos?

La forma más común de visualizar una distribución es el histograma: divide los valores en rangos (bins) y muestra cuántos datos caen en cada rango.

La distribución normal (campana de Gauss)

Es la distribución más conocida. Tiene forma de campana simétrica alrededor de la media.

        ████
      ████████
    ████████████
  ████████████████
████████████████████

Características:

La mayoría de los valores se concentran alrededor de la media
Es perfectamente simétrica
Media = mediana = moda

Ejemplos reales: estatura de personas, errores de medición, notas en exámenes con muchos estudiantes.

Distribuciones sesgadas

Sesgo positivo (cola hacia la derecha)

La mayoría de los valores son bajos, pero hay algunos valores muy altos que alargan la cola hacia la derecha.

Ejemplos: salarios (la mayoría gana poco, unos pocos ganan muchísimo), precio de viviendas, número de seguidores en redes sociales.

En este caso: media > mediana. El promedio es "jalado" hacia arriba por los valores extremos.

Sesgo negativo (cola hacia la izquierda)

La mayoría de los valores son altos, pero hay algunos muy bajos.

Ejemplos: edad de jubilación (la mayoría se jubila tarde, pocos muy temprano), notas en un examen fácil.

Dispersión: no solo importa el centro

Dos distribuciones pueden tener la misma media pero muy diferente dispersión:

Grupo A: [48, 49, 50, 51, 52]  → media = 50, muy concentrado
Grupo B: [10, 20, 50, 80, 90]  → media = 50, muy disperso

Para medir la dispersión se usan:

Rango: valor máximo - valor mínimo
Desviación estándar: qué tan lejos están los valores del promedio en promedio
Varianza: el cuadrado de la desviación estándar

Ejemplo en Python

import pandas as pd
import matplotlib.pyplot as plt

datos = [22, 25, 23, 28, 24, 26, 25, 27, 23, 24, 25, 26, 150]

serie = pd.Series(datos)
print(f"Media: {serie.mean():.1f}")        # 26.8 (afectada por 150)
print(f"Mediana: {serie.median():.1f}")    # 25.0
print(f"Desv. estándar: {serie.std():.1f}") # 33.7

serie.hist(bins=10)
plt.show()

El histograma mostraría claramente que casi todos los valores están entre 22-28 y hay un valor atípico en 150.

Por qué importa conocer la distribución

Elegir la estadística correcta (media vs mediana)
Detectar outliers que pueden ser errores o casos especiales
Saber si los datos cumplen los supuestos de ciertos análisis estadísticos
Entender mejor el fenómeno que estás estudiando

Errores frecuentes

Asumir que todos los datos son normales: muchos fenómenos reales tienen distribuciones sesgadas. No asumas normalidad sin verificarla.

Ignorar los outliers: pueden ser errores de registro o pueden ser los casos más interesantes para analizar. Nunca los borres sin investigar primero.

Aprende haciendo, no solo leyendo

Leer es el primer paso. El verdadero aprendizaje ocurre cuando practicas con ejercicios reales de SQL y recibes corrección inmediata de IA.

Comenzar gratis →