Ejemplo de detección y tratamiento de atípicos
Vamos a ver un ejemplo con la siguiente base de datos (CEREALES) que contiene datos sobre la composición de diferentes variedades de cereales:
Diccionario de variables
VARIEDAD
Tipo de cereal: AVENA, TRIGO o CEBADA.
MANGANESO
Contenido de manganeso; normalmente se expresa en mg por 100 g de alimento.
CALORIAS
Valor energético en kcal por 100 g.
FIBRA
Fibra dietética total en g por 100 g.
SELENIO
Contenido de selenio (habitualmente µg por 100 g).
FOSFORO
Fósforo total, típico en mg por 100 g.
N_MUESTRA
Identificador secuencial de la muestra (1 – 173).
El objetivo del estudio es saber la composición entre los diferentes tipos de cereal.
Importamos la base de datos y miramos si hay posibles errores e incongruencias o hay que cambiar algún tipo de variable para ello piensa primero en el tipo de variable:
datos<-read.csv("CEREALES.csv")
## Miramos que el tipo de variable y nombre esté bien
str(datos)
summary(datos)
## Declaramos como factor la variable cualitativa
datos$VARIEDAD<-factor(datos$VARIEDAD)
summary(datos)
Ahora estudiaremos paso a paso la detección y tratamiento de los datos atípicos:
Estudio univariante
Las variables con datos atípicos son MANGANESO 24.28% de outliers y un 1.73% de extremos. FIBRA 8.09% de outliers y SELENIO 1.73% de outliers y 1.16% de extremos.
Veremos los gráficos correspondientes a estas variables:



En todos los gráficos se ve claramente como las variables están distribuidos de forma trimodal, posiblemente correspondiendo a los tres tipos de cereal. Esto lo veremos en el estudio bivariante. La gran cantidad de datos outliers en MANGANESO con valores pequeños, posiblemente correspondan a un tipo de cereal, siendo sólo posibles outliers los 3 valores extremos que se alejan con valores altos de la distribución. En el caso de FIBRA parece que el % de outlier corresponde a la distribución trimodal correspondiente a los tres tipos de cereales y en SELENIO, parece todos outliers.
Estudio bivariante:
Para el estudio bivariante hay que pensar en el objetivo principal, en este caso buscamos ver si hay diferencias de la composición entre las distintas variedades de cereal, por tanto la variable principal con la que miraremos los posibles outliers, será con la variable VARIEDAD. Además en el estudio univariante, se ha visto la distribución trimodal correspondiente seguramente a los tres cereales.
MANGANESO

Los outliers son un 24.28 %, de los cuales un 1.73% (3 valores) son extremos. En el caso de los outliers, se ve que corresponden a la CEBADA y los 3 extremos no pertenecen a ninguna de las 3 distribuciones parcadas por los 3 cereales, por tanto habrá que borrarlos.
FIBRA

El porcentaje de ouliers es de un 8% y además se ve que es debido a una distribución asimétrica ya que los outliers corresponden a la cebada, por tanto, no hay que borrarlos, no son outliers.
SELENIO

CONCLUSIÓN:
Borrar los outliers de SELENIO y los extremos de MANGANESO
Análisis multivariante con LOF

Se ve como hay unos datos con score LOF muy elevado por encima de 5 que seguramente estén marcando los outliers que hemos visto en el estudio univariente/bivariante. Lo comprobamos:

En el estudio multivariante se ve como hay 3 observaciones que tienen un LOF completamente elevado, estos corresponden a los outliers de la variable de SELENIO. No se ve en el resto de las variables que estas observaciones se comporten de forma rara, simplemente son tan atípicas en la variable SELENIO, que el algoritmo LOF las ha detectado. Sólo borraremos el valor de SELENIO.
Last updated
