Estudio y Depuración de Datos
  • Declaración de autoría
  • Tema 1: Análisis Exploratorio de Datos
    • Tipos de variables
      • Ejercicio: Tipos de Datos
        • Resultados
    • Codificación y Transformación
      • Ejercicio: Codificación y Transformación
        • Resultados
    • Descriptivos, Gráficos y Tablas
      • Ejercicio: Gráficos y Tablas
        • Resultados
    • Ejemplo de un análisis descriptivo básico para detectar errores e incongruencias
    • PRACTICA 1
      • Resultados
  • Tema 2: Control de integridad de los datos
    • Introducción a los datos atípicos
      • Ejercicios
        • Resultados
    • Detección y tratamiento de datos atípicos (univariante)
    • Detección y tratamiento de datos atípicos (bivariante)
      • Ejercicio I
        • Resultados
    • Detección de datos atípicos y su tratamiento (automatización)
      • Ejercicio I - automatización
        • Resultados
    • Detección y tratamiento de datos atípicos (multivariante)
      • Ejercicio II
        • Resultados
    • Detección y tratamiento de duplicados
      • Ejercicio
        • Reusltados
    • Ejemplo de detección y tratamiento de atípicos y duplicados
      • Resultados
    • PRACTICA 2
      • Resultados
  • Tema 3: Valores Perdidos
    • Detección de datos perdidos
      • Ejercicios
    • Tratamiento de datos perdidos (Imputación Simple)
      • Ejercicio - Epidemia Ébola
        • Resultados
      • Ejercicio - Tipos de datos missing
        • Resultados
    • Tratamiento de datos perdidos (Imputación Múltiple con MICE)
      • Ejercicio - MICE
        • Resultados
    • PRACTICA 3
      • Resultados
    • PRÁCTICA GRUPAL
  • Bibliografía
    • 📚Bibliografía
Powered by GitBook
On this page
  1. Tema 3: Valores Perdidos
  2. Tratamiento de datos perdidos (Imputación Simple)

Ejercicio - Tipos de datos missing

PreviousResultadosNextResultados

Last updated 2 months ago

Estos datos ejemplifican un escenario en donde se seleccionan candidatos a un empleo, y los candidatos completan un test de IQ, durante su entrevista de trabajo y posteriormente un supervisor evalua su rendimiento después de un periodo de 6 meses. En el ejemplo hay 4 columnas de Rendimiento, una que sería la completa y otras tres que se han borrado los datos considerando los 3 tipos de datos missing que hemos estudiado (MCAR, MAR, MNAR).

library(naniar)

library(ggplot2)

datos<-read.csv("EjemploTiposMissing.csv")
  1. Averigua a qué columna corresponde los datos MCAR, MAR y MNAR y explica por qué. Después cambia el nombre de las columnas por Rendimiento_MCAR, Rendimiento_MAR y Rendimiento_MNAR.

  2. Compara la media entre las 3 variables de Rendimiento_MCAR, Rendimiento_MAR y Rendimiento_MNAR con Rendimiento_completo. ¿Qué observas?

  3. Si calculamos los coeficientes de correlación y una regresión simple de cada una de las 3 variables Rendimiento_MCAR, Rendimiento_MAR y Rendimiento_MNAR para predecir el IQ. ¿Qué diferencias observas en comparación con Rendimiento_completo?

  4. Haz un gráfico para ver como se ajusta la recta de regresión en cada uno de los casos.

library(ggplot2)
library(patchwork)

y_min <- min(datos$Rendimiento_completo)
y_max <- max(datos$Rendimiento_completo)

ggp1 <- ggplot(datos,aes(IQ, Rendimiento_completo)) + geom_point() + 
 stat_smooth(method = "lm",se=TRUE, formula = y ~ x, geom = "smooth")  + ylim(y_min, y_max)  

ggp2 <- ggplot(datos,aes(IQ, Rendimiento_MCAR)) + geom_point() + 
 stat_smooth(method = "lm",se=TRUE, formula = y ~ x, geom = "smooth") + ylim(y_min, y_max) 

ggp3 <- ggplot(datos,aes(IQ, Rendimiento_MAR)) + geom_point() + 
stat_smooth(method = "lm",se=TRUE,formula = y ~ x, geom = "smooth") + ylim(y_min, y_max) 

ggp4 <- ggplot(datos,aes(IQ, Rendimiento_MNAR)) + geom_point() +
stat_smooth(method = "lm",se=TRUE, formula = y ~ x, geom = "smooth")+ ylim(y_min, y_max) 

ggp1+ggp2+ggp3+ggp4
  1. Imputa por la media y por el modelo de regresión simple las tres variables rendimiento y compara los resultados.

380B
EjemploTiposMissing.csv