Introducción
En el análisis de datos, rara vez se dispone de un conjunto de datos completo y perfecto. Es muy común encontrarse con valores ausentes o perdidos (missing values), es decir, celdas en la matriz de datos que no contienen ninguna información válida. Estos valores pueden aparecer por múltiples razones:
Errores en la recogida de información
Fallos en sistemas de registro
Abandono de encuestas por parte de los participantes
Restricciones de privacidad
etc
Los valores perdidos constituyen un problema relevante porque afectan directamente a la calidad del análisis. Un dataset con muchos valores ausentes puede llevar a resultados sesgados, reducir la precisión de los modelos predictivos, o incluso hacer que ciertos algoritmos no funcionen correctamente. Por ello, en cualquier proyecto de análisis o depuración de datos es esencial abordar de manera sistemática este fenómeno.
En este tema se abordarán:
Cómo identificar y cuantificar la presencia de datos ausentes.
Métodos básicos y avanzados para tratarlos, desde la eliminación de registros hasta técnicas de imputación simple y múltiple.
Ejemplo
Imaginemos una tabla con información de estudiantes:
1
20
8.5
Madrid
2
22
NA
Madrid
3
NA
7.0
Sevilla
4
21
9.2
NA
En esta pequeña base de datos aparecen diferentes valores perdidos (NA
):
El estudiante 2 no tiene registrada la nota del examen (quizá solo figuran los aprobados).
Del estudiante 3 no se conoce la edad (puede que no la facilitara en el formulario).
En el caso del estudiante 4 falta el dato de la ciudad (podría ser un error en la recogida).
Aunque son pocos valores, si esta situación se repite a gran escala puede dificultar el análisis:
¿Cómo calcular la nota media de la clase si el que no ha aprobado no tiene nota?
¿Podemos analizar la distribución de edades si algunas no están presentes? Imagina que no está porque es una persona mayor que no ha querido facilitar su edad
¿Qué ocurre si queremos estudiar el rendimiento por ciudad y hay valores ausentes?
Este ejemplo refleja la necesidad de detectar, comprender y tratar los valores perdidos antes de avanzar en cualquier análisis o modelado estadístico.
Last updated