Introducción a los datos atípicos
Un dato atípico, llamado outlier en inglés, es un valor de una de las variables que se observan en un conjunto de datos, que se diferencia de forma notable de los valores que toma dicha variable. También podemos considerar que los datos atípicos son observaciones cuyo comportamiento es distinto del comportamiento medio del resto de observaciones.
El problema de los datos atípicos es que distorsionan de forma importante los análisis en los que interviene la variable que contiene dichos datos.
Es muy importante no confundir un dato atípico con un dato erróneo. Por ejemplo una persona que mida 2.1 metros, aunque poco frecuente, no tiene porque tratarse de valor erróneo, pues se trata de un valor válido, y será un dato atípico si se compara con otros individuos de menor altura, pero no si forma parte de un conjunto de datos de jugadores de baloncesto. Es importante tratar primero los errores como hemos vissto en el Tema 1 y luego los datos atípicos como vamos a ver en este tema.
Ejemplo 1
Supongamos que en una pequeña empresa hay 6 empleados con los siguientes salarios mensuales (en euros):
1800, 1900, 2000, 2100, 2200, 2300
Si calculamos la media obtenemos:
Si calculamos su mediana
Hasta aquí, la media y la mediana coinciden.
Introducimos un dato atípico
Ahora supongamos que el dueño de la empresa también incluye su propio salario de 20,000€ en la lista:
1800, 1900, 2000, 2100, 2200, 2300, 20000
Nueva media:
Nueva mediana:
La media ha aumentado drásticamente de 2050 a 4600, lo que da una impresión errónea de los salarios reales de los empleados.
La mediana apenas ha cambiado (de 2050 a 2100), lo que indica que la mayoría de los empleados sigue ganando un salario similar.
Este ejemplo muestra que la media es muy sensible a los datos atípicos, mientras que la mediana es más robusta y representa mejor la tendencia central en presencia de valores extremos.
Ejemplo 2
No siempre vamos a observar unos datos tan dispares, pero aun así podemos ver que un dato atípico puede tener un gran impacto en nuestros estudios.
Imagínate que queremos predecir el tiempo que tarda en recorrer una persona 1.5 millas según la cantidad de oxígeno que absorve por minuto.
En un grupo de 10 personas, se observan para cada una de ellas las siguientes variables:
Tiempo: tiempo que tarda en recorrer 1.5 millas (en minutos)
Oxigeno: cantidad de oxígeno que absorve por minuto (en ml. por Kg de peso)
Ajustamos una recta de regresión a estos datos
Y lo representamos gráficamente

Supongamos que en algún momento se ha producido un error y que en la observacion 10, el Tiempo = 18:
Y volvemos a ajustar una recta de regresión y la volvemos a dibujar

Los cambios producidos por una única observación son catastróficos. Para evitar estas situaciones, necesitamos estudiar la causa de estos valores y realizar un tratamiento de los mismos.
Vamos a realizar los siguientes ejercicios:
EjerciciosLo primero que nos preguntamos es ¿Qué clase de dato atípico tenemos?
Clases de datos atípicos
Datos que son errores en la toma de datos o en la codificación de los mismos y no los hemos detectado como erróneos
Subsanar el error y si no es posible eliminar el dato y considerarlo “missing”
Datos causados por acontecimientos extraordinarios, pero su presencia está justificada
Mantenerlos salvo que su relevancia sea anecdótica
Observaciones extrañas para las que no nos sirve ningún tipo de justificación
Eliminarlos cuando no es posible encontrar una explicación
Datos con valores extremos
El investigador decidirá si debe eliminarse o considerarlo representativo de una parte minoritaria. Si se elimina, debe quedar constancia y ser informada
Como criterio general, la decisión de los atípicos a eliminar, debe ser en función de sus características y de los objetivos del análisis a realizar.
A veces se analizan los datos con los atípicos y sin los atípicos para ver dicha influencia (Análisis de Sensibilidad). Si los resultados son similares entonces se convierte en una decisión intranscendente lo que se haga con los atípicos. Pero si no los son, unos pocos valores atípicos no eliminados de un análisis pueden provocar que el resto de los datos resulten inútiles para llegar a conclusiones correctas.

Last updated