Estudio y Depuración de Datos
  • Declaración de autoría
  • Tema 1: Análisis Exploratorio de Datos
    • Tipos de variables
      • Ejercicio: Tipos de Datos
        • Resultados
    • Codificación y Transformación
      • Ejercicio: Codificación y Transformación
        • Resultados
    • Descriptivos, Gráficos y Tablas
      • Ejercicio: Gráficos y Tablas
        • Resultados
    • Ejemplo de un análisis descriptivo básico para detectar errores e incongruencias
    • PRACTICA 1
      • Resultados
  • Tema 2: Control de integridad de los datos
    • Introducción a los datos atípicos
      • Ejercicios
        • Resultados
    • Detección y tratamiento de datos atípicos (univariante)
    • Detección y tratamiento de datos atípicos (bivariante)
      • Ejercicio I
        • Resultados
    • Detección de datos atípicos y su tratamiento (automatización)
      • Ejercicio I - automatización
        • Resultados
    • Detección y tratamiento de datos atípicos (multivariante)
      • Ejercicio II
        • Resultados
    • Detección y tratamiento de duplicados
      • Ejercicio
        • Reusltados
    • Ejemplo de detección y tratamiento de atípicos y duplicados
      • Resultados
    • PRACTICA 2
      • Resultados
  • Tema 3: Valores Perdidos
    • Detección de datos perdidos
      • Ejercicios
    • Tratamiento de datos perdidos (Imputación Simple)
      • Ejercicio - Epidemia Ébola
        • Resultados
      • Ejercicio - Tipos de datos missing
        • Resultados
    • Tratamiento de datos perdidos (Imputación Múltiple con MICE)
      • Ejercicio - MICE
        • Resultados
    • PRACTICA 3
      • Resultados
    • PRÁCTICA GRUPAL
  • Bibliografía
    • 📚Bibliografía
Powered by GitBook
On this page
  1. Tema 2: Control de integridad de los datos

Detección y tratamiento de datos atípicos (univariante)

PreviousResultadosNextDetección y tratamiento de datos atípicos (bivariante)

Last updated 3 months ago

Los datos atípicos los estudiaremos dentro del contexto de todas las variables. A veces, un valor extremo no es significativo dentro de un conjunto de variables. Por lo tanto, debemos abordar el problema desde el punto de vista univariante y multivariante.

Enfoque univariante

Para una variable continua, un dato atípico se determina por aquellas observaciones que caigan fuera de 1.5*IQR y un dato extremo para los que esta distancia sea superior a 3 veces el IQR, siendo IQR el Rango Intercuartílico que es la diferencia entre el cuartil tercero y el cuartil primero.

IQR=Q3−Q1IQR=Q3-Q1IQR=Q3−Q1

Es decir, aquellos puntos que están fuera de los bigotes de un diagrama de cajas. Esto se le llama regla de Tukey.

Vamos a utilizar la base de datos ozone de R para ilustrar el tema

data <- read.csv("ozone.csv")  # import data

str(data)
summary(data)

data$Month<-as.factor(data$Month)
data$Day_of_month<-as.factor(data$Day_of_month)
data$Day_of_week<-as.factor(data$Day_of_week)

Vamos a ver los outliers:

Vamos a estudiar la variable Pressure_height obteniendo los datos atípicos y extremos:

boxplot(data$Pressure_height)

ggplot(data, aes(y = Pressure_height)) +
  geom_boxplot(fill = "skyblue", outlier.color = "red", outlier.shape = 16)



###Los valores atípicos son:

outlier_values <- boxplot.stats(data$Pressure_height)$out  # outlier values.

out_ind <- which(data$Pressure_height %in% c(outlier_values))



###Los valores extremos son:

extreme_values <- boxplot.stats(data$Pressure_height,coef=3)$out  # extreme values.

ext_ind <- which(data$Pressure_height %in% c(extreme_values))




La decisión de que hacer es más compleja, no siempre hay que borrar los datos atípicos o extremos, a veces basta con que seamos conscientes y en el posterior análisis tengamos en cuenta la influencia de los mismos. Otras veces dependerá del contexto del estudio y lo que queramos hacer después.

Además tenemos que tener en cuenta la proporción de datos atípicos o extremos en la muestra, es decir, si los datos representan menos de un 2-5% de la muestra, podríamos considerar borrarlos, si son más entonces los consideramos datos "típicos".

####Miramos la proporción de outliers
length(out_ind)/length(data$Pressure_height)*100
[1] 2.463054

En este ejemplo nos salen que los datos atípicos de la variable pressure height corresponden a un 2.5% de los datos, por tanto ya que son sólo atípicos y no extremos y están por encima del 2% vamos a dejarlos sin borrar pero siendo conscientes en futuros análisis de su existencia.

Además también es importante tener en cuenta si son datos aislados o son parte de una distribución un poco asimétrica. Si hacemos un histograma podemos ver un poco más si es solo la distribución que es asimétrica

hist(data$Pressure_height)

Empieza a parecer que más bien corresponde a una distribución asimétrica

Lo primero sería ver el tipo de datos y que no haya errores e incongruencia como hemos visto en el .

Tema 1
10KB
ozone.csv
Page cover image