Introducción
Una vez que conocida la estructura del conjunto de datos y corregido los problemas básicos de tipos y codificación, el siguiente paso es comprobar su integridad, es decir, si los valores y registros son coherentes con el fenómeno que estamos estudiando. En esta fase suelen aparecer dos problemas muy comunes: valores atípicos que distorsionan los resultados y duplicados que inflan artificialmente la muestra y sesgan estimaciones y modelos.
Empecemos por definir un dato atípico, llamado outlier en inglés. Un dato atípico es un valor de una de las variables que se observan en un conjunto de datos, que se diferencia de forma notable de los valores que toma dicha variable. También podemos considerar que los datos atípicos son observaciones cuyo comportamiento es distinto del comportamiento medio del resto de observaciones.
El problema de los datos atípicos es que distorsionan de forma importante los análisis en los que interviene la variable que contiene dichos datos.
Es muy importante no confundir un dato atípico con un dato erróneo. Por ejemplo una persona que mida 2.1 metros, aunque poco frecuente, no tiene porque tratarse de valor erróneo, pues se trata de un valor válido, y será un dato atípico si se compara con otros individuos de menor altura, pero no si forma parte de un conjunto de datos de jugadores de baloncesto. La diferencia no la decide un umbral automático, sino la combinación de contexto, exploración gráfica y criterios estadísticos. Por eso, en este tema trabajaremos con una lógica de decisión: detectar → interpretar → actuar (corregir, excluir, o conservar justificadamente).
Es importante tratar primero los errores como hemos visto en el Tema 1 y luego los datos atípicos como vamos a ver en este tema. En este tema abordaremos:
Detección y tratamiento de atípicos univariante y bivariante (gráficos + reglas cuantitativas).
Detección de atípicos multivariante (cuando lo “raro” aparece en la combinación de variables, por ejemplo con LOF).
Identificación y tratamiento de duplicados, diferenciando duplicados exactos y duplicados “por clave” (IDs).
Ejemplo 1
Supongamos que en una pequeña empresa hay 6 empleados con los siguientes salarios mensuales (en euros):
1,800, 1,900, 2,000, 2,100, 2,200, 2,300
Si calculamos la media obtenemos:
Si calculamos su mediana
Hasta aquí, la media y la mediana coinciden.
Introducimos un dato atípico
Ahora supongamos que el dueño de la empresa también incluye su propio salario de 20,000€ en la lista:
1,800, 1,900, 2,000, 2,100, 2,200, 2,300, 20,000
Nueva media:
Nueva mediana:
La media ha aumentado drásticamente de 2050 a 4600, lo que da una impresión errónea de los salarios reales de los empleados.
La mediana apenas ha cambiado (de 2050 a 2100), lo que indica que la mayoría de los empleados sigue ganando un salario similar.
Este ejemplo muestra que la media es muy sensible a los datos atípicos, mientras que la mediana es más robusta y representa mejor la tendencia central en presencia de valores extremos.
Ejemplo 2
No siempre vamos a observar unos datos tan dispares, pero aun así podemos ver que un dato atípico puede tener un gran impacto en nuestros estudios.
Imagínate que queremos predecir el tiempo que tarda en recorrer una persona 1.5 millas según la cantidad de oxígeno que absorve por minuto.
En un grupo de 10 personas, se observan para cada una de ellas las siguientes variables:
Tiempo: tiempo que tarda en recorrer 1.5 millas (en minutos)
Oxigeno: cantidad de oxígeno que absorve por minuto (en ml. por Kg de peso)
Ajustamos una recta de regresión a estos datos
Y lo representamos gráficamente

Supongamos que en algún momento se ha producido un error y que en la observacion 10, el Tiempo = 18:
Y volvemos a ajustar una recta de regresión y la volvemos a dibujar

Los cambios producidos por una única observación son catastróficos. Para evitar estas situaciones, necesitamos estudiar la causa de estos valores y realizar un tratamiento de los mismos.
Vamos a realizar los siguientes ejercicios:
Ejercicio 2.1:Antes de ver cómo tratar los datos atípcio, nos preguntamos como los podemos clasificar
Clases de datos atípicos
Datos que son errores en la toma de datos o en la codificación de los mismos y no los hemos detectado como erróneos
Subsanar el error y si no es posible eliminar el dato y considerarlo “missing”
Datos causados por acontecimientos extraordinarios, pero su presencia está justificada
Mantenerlos salvo que su relevancia sea anecdótica
Observaciones extrañas para las que no nos sirve ningún tipo de justificación
Eliminarlos cuando no es posible encontrar una explicación
Datos con valores extremos
El investigador decidirá si debe eliminarse o considerarlo representativo de una parte minoritaria. Si se elimina, debe quedar constancia y ser informada
Como criterio general, la decisión de los atípicos a eliminar, debe ser en función de sus características y de los objetivos del análisis a realizar.
A veces se analizan los datos con los atípicos y sin los atípicos para ver dicha influencia (Análisis de Sensibilidad). Si los resultados son similares entonces se convierte en una decisión intranscendente lo que se haga con los atípicos. Pero si no los son, unos pocos valores atípicos no eliminados de un análisis pueden provocar que el resto de los datos resulten inútiles para llegar a conclusiones correctas.
Para la detección y tratamiento de los datos atípicos vamos a seguir tres enfoques que veremos a continuación, enfoque univariante, ennfoque bivariante y enfoque multivariante, que podemos ver resumiedo en el siguiente gráfico:

Last updated
