Ejemplo de detección y tratamiento de atípicos y duplicados
Last updated
Last updated
Vamos a ver un ejemplo con la siguiente base de datos (CEREALES) que contiene datos sobre la composición de diferentes variedades de cereales:
Las variables miden la composición de MANGANESO, CALORIAS, FIBRA, SELENIO y FOSFORO siendo variables medidas en escala continua que toman valores positivos y la variabe VARIEDAD que es una variable que mide el tipo de cereal.
Importa la base de datos y mira si hay posibles errores e incongruencias o hay que cambiar algún tipo de variable para ello piensa primero en el tipo de variable:
Después realiza un estudio para ver si hay datos atípicos, puedes seguir los siguientes pasos:
Estudia de forma univariada los datos atípicos mediante unos gráficos y la obtención de los datos atípicos y extremos.
Estudia de forma bivariada si son realmente atípicos considerando que en esta base de datos lo más seguro es que busquemos ver si hay diferencias de la composición entre las distintas variedades de cereal.
Si así lo consideras, borra los datos atípicos y justifica por qué quitas o no los datos atípicos.
Con la base de datos completa, aplica el algoritmo LOF para el estudio de datos atípicos multivariante.
Lectura y comprobación de errores y declaración de variables