Realiza todos los pasos del tratamiento de datos perdidos explicados en este apartado.
Luego contesta a las siguientes preguntas:
¿Podemos imputar gender a través de hospital? ¿Cómo imputarías gender
vis_miss(select(data,gender, hospital))table(data$gender,data$hospital) table(data$gender,useNA ="always")##No hay una moda clara. Difícil decisión
¿Qué podríamos hacer con los missing de hospital para poder usar esa variable sin tener que borrar el 25% de los datos que son los que corresponden a esta variable?
data$hospital_imp<-data$hospitallevels(data$hospital_imp) <-c(levels(data$hospital_imp), "Missing")data$hospital_imp[which(is.na(data$hospital_imp))] <-"Missing"table(data$hospital_imp)## Podríamos tratar los NAs como una categoría más.
¿Podemos imputar la variable fever a partir de temp? ¿Cómo procederías? ¿Encuentras alguna discrepancia a la hora de ejecutar esta acción?
library(psych)describeBy(data$temp,data$fever)##Max sin fiebre es 38 y min con fiebre es 38##No hay una clara definición, habría que tomar la decisión para corregir la definiciónlibrary(dplyr)data$fever_imp<-if_else(is.na(data$temp),data$fever, if_else(data$temp<38,"no","yes"))table(data$fever,data$fever_imp)vis_miss(select(data,temp,temp_imp,fever,chills,cough,aches,vomit,fever_imp))
¿Podríamos imputar el resto de síntomas?
table(data$fever_imp,data$chills,useNA ="always")## Todos los que se han imputado en fiebre se han imputado como fiebre = no, ## pero cuano vemos una tabla cruzada, vemos que no todos los que no tienen ## fiebre tampoco tienen chills, o vomit etc, entonces podría ser un poco ## arriesgado, pero esto lo veríamos en un modelo de regresión logísticasummary(glm(chills~fever_imp,data=data,family="binomial")) ## No es significativo, así que no vamos a poder usar el resto de síntomas ## para imputar estos síntomas
¿Hay alguna otra variable que se te ocurra cómo imputarla?