Detección y tratamiento de datos atípicos (multivariante)
Last updated
Last updated
La idea del enfoque multivariante, es sobre todo detectar posibles "observaciones" atípicas. Considerando todas las variables de forma global, podemos ver si hay observaciones que destaquen de forma atípica.
Al igual que tenemos métodos más sofisticados de machine learning para analizar nuestros datos, los tenemos también para la detección de datos atípicos.
LOF es un algoritmo de detección de valores atípicos basado en la proximida y la densidad. Evalúa la densidad local de los puntos de datos para identificar valores atípicos. A diferencia de algoritmos de agrupación como k-Nearest Neighbors (KNN), LOF se centra en encontrar observaciones que se desvíen del patrón de densidad local. Es decir, modela los valores atípicos como puntos que están aislados de los datos restantes.
En la práctica, la densidad local se obtiene de los k vecinos más cercanos. La puntuación LOF de una observación es igual a la relación entre la densidad local promedio de sus k vecinos más cercanos y su propia densidad local. Se espera que un caso normal tenga una densidad local similar a la de sus vecinos, mientras que los casos anómalos se espera que tengan una densidad local mucho menor.
En un KNN, lo que hacemos es clasificar a un nuevo miembro a una clase o categoría que ya existe. Lo determina según que sus atributos se parezcan a los casos de una categoría u otra. Supongamos los grupos que se presentan en la siguiente gráfica. Se quiere asignar un nuevo punto, en negro. KNN buscará los k puntos más cercanos a éste para encontrar la clase dominante del grupo. Para garantizar la existencia de una clase dominante, k debe ser un número impar.
El algoritmo LOF usa una idea similar al KNN, pero orientado a detectar datos anómalos. Calcula una puntuación (denominada factor de valor atípico local) que refleja el grado de anomalía de las observaciones. Mide la desviación de la densidad local de un punto con respecto a sus vecinos. La idea es detectar las muestras que tienen una densidad sustancialmente menor que sus vecinas.
En la práctica, la densidad local se obtiene de los k vecinos más cercanos. La puntuación LOF de una observación es igual a la relación entre la densidad local promedio de sus k vecinos más cercanos y su propia densidad local. Se espera que un caso normal tenga una densidad local similar a la de sus vecinos, mientras que los casos anómalos se espera que tengan una densidad local mucho menor.
Resumen del Algoritmo: Aquí tenéis un esquema básico del algoritmo LOF:
Para cada punto de datos:
Calcula la distancia a sus k vecinos más cercanos.
Evalúa la densidad local en función de la distancia promedio a los vecinos.
Compara la densidad local del punto con las densidades locales de sus vecinos.
Calcula el Local Outlier Factor (LOF) como la relación entre la densidad del punto y la densidad promedio de sus vecinos.
Para elegir el mejor valor de k hay muchas maneras, en esta asignatura vamos a aplicar un método muy sencillo que es coger:
Interpretación:
LOF > 1: Un valor LOF mayor que 1 indica que el punto tiene una densidad local significativamente menor que la de sus vecinos. En otras palabras, el punto se encuentra en una región donde la densidad de puntos es menor de lo esperado en comparación con su entorno local. Esto sugiere que el punto podría ser un valor atípico.
LOF ≈ 1: Un valor LOF cercano a 1 indica que el punto tiene una densidad local similar a la de sus vecinos. En este caso, el punto se encuentra en una región donde la densidad de puntos es consistente con su entorno local. No se considera un valor atípico según LOF.
LOF < 1: Un valor LOF menor que 1 indica que el punto tiene una densidad local más alta que la de sus vecinos. Esto puede suceder en regiones de alta densidad donde el punto está más densamente rodeado que la media de sus vecinos. En este caso, el punto puede considerarse menos atípico que sus vecinos.
Ejemplo con la base de datos de R iris
El conjunto de datos Iris consta de 150 observaciones de iris, con 50 observaciones de cada una de las tres especies de iris: setosa, versicolor y virginica. Para cada observación, se miden cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo. Es conocido por su utilidad en la demostración de técnicas de clasificación y análisis estadístico.
En el gráfico vemos claramente el valor atípico con un lof muy alto y en la tabla, donde hemos pintado todos los datos que están por encima de lof score > 1.5 vemos como el dato atípico tiene un claro valor que se va del reso con un lof score = 5.17. En este caso no tenemos que borrar todos los valores que estén por encima de 1.5 sino ser capaces de identificar que ese valor dista mucho del resto tanto en valor como en el gráfico. Además en este caso vemos que los valores son raros para casi todas las variables, por tanto podemos sospechar que lo que deberíamos borrar es la observación entera.
En este ejemplo se utilizaron las cinco observaciones más cercanas (), para determinar a qué grupo asignar al nuevo individuo. Hay muchas maneras de medir distancias. Cada manera se adapta de mejor o peor manera al tipo de atributos con que cuentan los individuos o casos. Esto lo estudiaréis en asignaturas más adelante.
siendo el número de observaciones.
La costumbre lleva a considerar anómalos a valores de LOF por encima de ó , pero cada problema debe definir cuál es su umbral adecuado.