Vamos a ver un ejemplo con la siguiente base de datos (CEREALES) que contiene datos sobre la composición de diferentes variedades de cereales:
Importamos la base de datos y miramos posibles errores e incongruencias
Primero haría un boxplot de todas las variables numéricas para ver si efectivamente hay datos atípicos y como son:
Parece que en MANGANESO, FIBRA y SELENIO hay datos atípicos según el boxplot, pero seguramente estos datos atípicos me interese quitarlos o no según las relaciones que queramos buscar. En esta base de datos lo más seguro es que busquemos ver si hay diferencias de la composición entre las distintas variedades de cereal, así que que vamos a ver unos gráficos bivariados
Variable MANGANESO:
Los outliers que aparecían en el boxplot univariado, resulta que perteneces al cereal cebada que parece que tiene bajo contenido en manganeso. Lo que estamos viendo aquí en la variable MANGANESO no son datos atípicos sino una asociación estadística. Lo que si parece datos atípicos son los 3 que se van por arriba y esto además parece que son extremos, por tanto podríamos usar la definición de dato extremo para quitarlo: