Tratamiento de datos perdidos (Imputación mediante Machine Learning MissForest)

Imputación mediante algoritmo de Machine Learning

missForest es un algoritmo de imputación basado en el algoritmo de Machine Learning Random Forest (package missForest en R) que maneja tanto variables cuantitativas como cualitativas sin transformaciones previas. Empieza imputando los datos perdidos con media/moda y luego, variable a variable, entrena un bosque con las filas observadas y predice las celdas faltantes. Repite este ciclo de forma iterativa hasta que la mejora entre iteraciones deja de ser relevante o se alcanza un número máximo de iteraciones. A partir de la segunda vuelta, los bosques se entrenan sobre datos progresivamente mejor imputados, lo que mejora la calidad de las predicciones para las variables restantes.

Algunas ventajas de este algoritmo son:

Se puede aplicar tanto a variables cuantitativas como cualitativas.
No necesita prepocesado de los datos.
Es robusto al ruido ya que atenúa predictores débiles/irrelevantes.
No asume linealidad y port tanto capta la no linealidad e interacciones entre variables.
Escala a alta dimensionalidad (p≫n) algo que pasa mucho en ciencia de datos.

Algunas desventajas son:

Tiempo computacional es elevado y crece con el número de observaciones, predictores y porcentaje de celdas con datos perdidos.
Tiene poca interpretabilidad ya que hereda la “caja negra” del Random Forest.
No genera un “modelo” final reutilizable y por tanto hay que re-ejecutar el algoritmo cada vez que se necesite imputar, lo que puede ser un problema.

Evaluación mediante métrica OOB (interna del algoritmo)

missForest devuelve un error OOB (out-of-bag) qusando las muestras no usadas para entrenar cada árbol. Este error mide cómo de bien predicen los bosques sin necesidad de un conjunto externo de validación.

Para las variables numéricas se mide el NRMSE (Normalized Root Mean Square Error)

$\mathrm{RMSE}=\sqrt{\frac{1}{|S|}\sum_{i\in S}\big(\hat y_i-y_i\big)^2}$

donde S es el número de celdas evaluadas (aquellas con valor real conocido) y luego se normaliza dividiendo por la desviación estándar de los valores reales (para quedar sin unidades y ser comparable entre variables):

$\mathrm{NRMSE}=\frac{\mathrm{RMSE}}{\,\mathrm{sd}(y)\,}$ .

Interpretación: cuanto más pequeño es este valor mejor, siendo el 0 la imputación perfecta.

Para las variables categóricas se midel el PFC (Percentage Falsely Classified) que es la proporción mal clasificada:

\mathrm{PFC}=\frac{1}{|S|}\sum_{i\in S}\mathbf{1}\!\left[\hat y_i \neq y_i\right]

De nuevo, cuanto más bajo mejor, siendo 0 la clasificación perfecta.

Si usas variablewise = TRUE obtienes el error por cada variable con NA (muy útil para detectar variables problemáticas).

Ejemplo

Vamos a utilizar los datos de airquality de R que son datos de mediciones de la calidad del aire medidos en EEUU que hemos visto en la imputación con MICE:

2KB

airquality.csv

Open

Se ejecuta el algoritmo de forma muy sencilla con la función missForest()

data<-read.csv("airquality.csv")

str(data)

#install.packages("missForest")
library(missForest)

set.seed(123)
imp <- missForest(data)

Nos da por un lado la base de datos imputada y por otro lado los errores OOB:

head(imp$ximp)
     Ozone  Solar.R      Wind     Temp
1 41.00000 190.0000  7.400000 81.10023
2 36.00000 118.0000  8.000000 80.30992
3 12.00000 149.0000 12.600000 71.89835
4 18.00000 313.0000 12.638919 66.89062
5 40.14696 211.4715  9.496077 81.45118
6 28.00000 216.2286 10.360952 66.00000

imp$OOBerror 
  NRMSE 
0.5280747

Como todas las variables son continuas, sólo nos muestra el error NRMSE, para poder ver los errores propios de cada variable hay que usar la opción variablewise = TRUE . Esta opción nos da simplemente el MSE, habrá que dividirla por la desviación típica para hacerla comparable entre variables

imp <- missForest(data,variablewise = TRUE)
imp$OOBerror 
        MSE         MSE         MSE         MSE 
 311.221941 7083.740928    8.251267   39.682168 
# Calcular la Standard Deviation para normalizar
SD<-sapply(data,sd,na.rm=TRUE)

# Calcular el NMRSE
NRMSE<-sqrt(imp$OOBerror)/SD
names(NRMSE)<-colnames(data)
NRMSE
    Ozone   Solar.R      Wind      Temp 
0.5347867 0.9345596 0.8349439 0.6778429

En este caso, podemos ver el error individual por variable siendo la variable Ozone la que menor valor tiene y la de Solar.R la que peor.

Comparando gráficamente:

g1<-ggplot(data, aes(x = data$Ozone, fill = "Ozone")) +
  geom_density(alpha = 0.5) +
  geom_density(aes(x = imp$ximp$Ozone, fill = "Ozone_imp"), alpha = 0.5) 

g2<-ggplot(data, aes(x = data$Solar.R, fill = "Solar.R")) +
  geom_density(alpha = 0.5) +
  geom_density(aes(x = imp$ximp$Solar.R, fill = "Solar.R_imp"), alpha = 0.5) 

g3<-ggplot(data, aes(x = data$Wind, fill = "Wind")) +
  geom_density(alpha = 0.5) +
  geom_density(aes(x = imp$ximp$Wind, fill = "Wind_imp"), alpha = 0.5) 

g4<-ggplot(data, aes(x = data$Temp, fill = "Temp")) +
  geom_density(alpha = 0.5) +
  geom_density(aes(x = imp$ximp$Temp, fill = "Temp_imp"), alpha = 0.5) 

library(patchwork)
g1+g2+g3+g4

Todas las imputaciones se asemejan a la distribución original de datos.

Last updated 2 months ago

hashtagImputación mediante algoritmo de Machine Learning

hashtagEvaluación mediante métrica OOB (interna del algoritmo)

hashtagEjemplo

Imputación mediante algoritmo de Machine Learning

Evaluación mediante métrica OOB (interna del algoritmo)

Ejemplo