Con la base de datos ozone de R comprueba si las variables tienen datos atípicos
inputData <- read.csv("ozone.csv") # import data
Para ver si hay datos atípicos en todas las variables numéricas de esta base de datos, podemos pensar en automatizar la comprobación creando una función.
Y para usarla sería como una función cualquiera de R:
outliers("inputData$pressure_height")
# Aplicar la función a múltiples variables numéricas o enteras
numeric_integer_vars <- names(which(sapply(inputData, is.numeric) | sapply(inputData, is.integer)))
outliers_results <- lapply(paste0("inputData$", numeric_integer_vars), outliers)
Esta función proporciona datos extremos, modifica la función para detectar datos atípicos (sin ser extremos) y aplícala a las distintas variables, luego piensa si modificas o no la base de datos.
Piensa cuidadosamente si quitar o no los datos atípicos de tu base de datos. Un dato atípico no es un dato que se va de la media sino un dato que realmente es incorrecto.