Detección y tratamiento de datos atípicos (univariante)
Last updated
Last updated
Los datos atípicos los estudiaremos dentro del contexto de todas las variables. A veces, un valor extremo no es significativo dentro de un conjunto de variables. Por lo tanto, debemos abordar el problema desde el punto de vista univariante y multivariante.
Para una variable continua, un dato atípico se determina por aquellas observaciones que caigan fuera de 1.5*IQR y un dato extremo para los que esta distancia sea superior a 3 veces el IQR, siendo IQR el Rango Intercuartílico que es la diferencia entre el cuartil tercero y el cuartil primero.
Es decir, aquellos puntos que están fuera de los bigotes de un diagrama de cajas. Esto se le llama regla de Tukey.
Vamos a utilizar la base de datos ozone
de R para ilustrar el tema
Vamos a ver los outliers:
Vamos a estudiar la variable Pressure_height
obteniendo los datos atípicos y extremos:
La decisión de que hacer es más compleja, no siempre hay que borrar los datos atípicos o extremos, a veces basta con que seamos conscientes y en el posterior análisis tengamos en cuenta la influencia de los mismos. Otras veces dependerá del contexto del estudio y lo que queramos hacer después.
Además tenemos que tener en cuenta la proporción de datos atípicos o extremos en la muestra, es decir, si los datos representan menos de un 2-5% de la muestra, podríamos considerar borrarlos, si son más entonces los consideramos datos "típicos".
En este ejemplo nos salen que los datos atípicos de la variable pressure height corresponden a un 2.5% de los datos, por tanto ya que son sólo atípicos y no extremos y están por encima del 2% vamos a dejarlos sin borrar pero siendo conscientes en futuros análisis de su existencia.
Además también es importante tener en cuenta si son datos aislados o son parte de una distribución un poco asimétrica. Si hacemos un histograma podemos ver un poco más si es solo la distribución que es asimétrica
Empieza a parecer que más bien corresponde a una distribución asimétrica
Lo primero sería ver el tipo de datos y que no haya errores e incongruencia como hemos visto en el .