Ejercicio 3.2: Imputación de datos perdidos (simple)

Con la misma base de datos del ejercicio 3.1, realiza la imputación de todas las variables siguiendo los siguientes pasos

  1. Las variables definidas como MCAR con <5% de datos faltantes, ¿Cómo las imputarías? Ejecútalo.

  2. Realiza la imputación de las variables MAR/MNAR sabiendo los siguiente:

    • La variable hours_study_week está relacionada con gpa y exam_score, pero sus datos NA están sompletos sólo para la variable exam_score. Lo puedes comprobar con:

    ggplot(data = data, aes (x = hours_study_week , y =gpa )) + geom_miss_point()
    ggplot(data = data, aes (x = hours_study_week , y =exam_score )) + geom_miss_point()
    
    vis_miss(select(data,hours_study_week,gpa,exam_score),cluster=TRUE)  + 
      theme(axis.text.x = element_text(angle = 90))

    • La variable exam_score está relacionada con gpa y hours_study_week, pero sus datos NA están sompletos sólo para la variable hours_study_week. Comprueba esta afirmación y realiza la imputación que consideres.

    • La variable attendance_pct está relacionada con gpa y exam_score, pero sus datos NA están completos sólo para la variable exam_score. Comprueba esta afirmación y realiza la imputación que consideres.

    • La variable gpa está relacionada con hours_study_week y exam_score, pero sus datos NA no están completos para ninguna de esas dos variables. ¿Qué harías? Realiza la imputación que consideres

Last updated