Para este apartado vamos a utilizar el conjunto de datos "Wine Quality" utilizado en Cortez et al. (2009).
Las variables son las siguientes:
Lo primero que haremos es leer los datos. Seguidamente verificamos que los tipos de variables se hayan asignado correctamente con str()
No todas las variables categóricas han sido asignadas a factores, por lo que debemos modificarlo. Para ello usamos as.factor()
. Podemos hacerlo en combinación con lapply()
que nos permite aplicar la misma función a varios objetos.
Ahora podemos ver un resumen de todas las variables para poder detectar errores iniciales usando la función summary()
Con estos resultados, podemos analizar las variables del conjunto de datos y detectar errores que deben ser tratados posteriormente:
La variable CloruroSodico tiene un valor máximo de 999, lo que suele representar valores ausentes.
La variable Alcohol toma valores fuera del intervalo 0-100.
La variable Clasificacion tiene valores representados por el símbolo ?, lo que también suele representar valores ausentes.
La variable Etiqueta tiene más categorías de las que necesita debido al uso de mayúsculas y minúsculas.
Para verificar si los valores 999 de la variable CloruroSodio son efectivamente ausentes, podemos representar su histograma
En el caso de la variable Alcohol, vamos a declarar como NA los valores fuera de rango
Finalmente vamos a corregir los errores de escritura de la variable Etiqueta, para ello podemos usar la funcion recode()
del paquete car
Para la variable Clasificacion vamos a recodificar ? por NA
Vamos a ver que efectivamente todos los errores se han corregido