Ejercicio - Epidemia Ébola

Realiza todos los pasos del tratamiento de datos perdidos explicados en este apartado.

Luego contesta a las siguientes preguntas:

  1. ¿Podemos imputar gender a través de hospital? ¿Cómo imputarías gender

vis_miss(select(data,gender, hospital)) 
table(data$gender,data$hospital) 
table(data$gender,useNA = "always")
##No hay una moda clara. Difícil decisión
  1. ¿Qué podríamos hacer con los missing de hospital para poder usar esa variable sin tener que borrar el 25% de los datos que son los que corresponden a esta variable?

data$hospital_imp<-data$hospital
levels(data$hospital_imp) <- c(levels(data$hospital_imp), "Missing")
data$hospital_imp[which(is.na(data$hospital_imp))] <- "Missing"
table(data$hospital_imp)
## Podríamos tratar los NAs como una categoría más.
  1. ¿Podemos imputar la variable fever a partir de temp? ¿Cómo procederías? ¿Encuentras alguna discrepancia a la hora de ejecutar esta acción?

library(psych)
describeBy(data$temp,data$fever) 
##Max sin fiebre es 38 y min con fiebre es 38
##No hay una clara definición, habría que tomar la decisión para corregir la definición

library(dplyr)
data$fever_imp<-if_else(is.na(data$temp),data$fever, if_else(data$temp<38,"no","yes"))
table(data$fever,data$fever_imp)

vis_miss(select(data,temp,temp_imp,fever,chills,cough,aches,vomit,fever_imp))
  1. ¿Podríamos imputar el resto de síntomas?

table(data$fever_imp,data$chills,useNA = "always")
## Todos los que se han imputado en fiebre se han imputado como fiebre = no, 
## pero cuano vemos una tabla cruzada, vemos que no todos los que no tienen 
## fiebre tampoco tienen chills, o vomit etc, entonces podría ser un poco 
## arriesgado, pero esto lo veríamos en un modelo de regresión logística
summary(glm(chills~fever_imp,data=data,family="binomial")) 
## No es significativo, así que no vamos a poder usar el resto de síntomas 
## para imputar estos síntomas
  1. ¿Hay alguna otra variable que se te ocurra cómo imputarla?

Last updated