PRACTICA 3
Last updated
Last updated
En el dataset de Titanic las variables disponibles son:
Identifica las variables cuantitativas y cualitativas.
Visualiza y Cuantifica los datos missing. Después decide a qué tipo de datos missing (MCAR, MAR o MNAR) pertenecen los missing de cada variable.
Realiza una imputación simple de la siguiente forma.
Para las variables cualitativas imputa por la moda.
Para las variables cuantitativas imputa por la media y un modelo de regresión. Ten en cuenta que la variable Age está asociada con Survived, Pclass y SibSp. La variable SibSP está asociada con Survived, Pclass, Age y Fare y la variable Fare está asociada con Sex, SibSp, Age y Survived.
Recuerda comprobar las imputaciones gráficamente y comenta si te parece que se ha imputado bien o mal o regular cada variable.
Realiza una imputación múltiple con mice()
, para ello ten en cuenta que seguramente no tenga sentido usar todas las variables de la base de datos. Después contesta a las siguientes preguntas:
¿Con qué métodose ha imputado cada variable en la función mice?
Una vez comprobada la imputación múltiple mediante gráficos ¿Qué te parece que ocurre con la variable Fare?
¿Cuál es la proporción de la variable Sex cuando se imputa por la moda y cuando se imputa por mice? ¿Cuál crees que será una imputación más correcta?
En el dataset de Titanic las variables disponibles son:
PassengerId: identificador único del pasajero.
Survived: si el pasajero sobrevivió al naufragio, codificada como 0 (no) y 1 (si). Esta es la variable respuesta que interesa predecir.
Pclass: clase a la que pertenecía el pasajero: 1, 2 o 3.
Name: nombre del pasajero.
Sex: sexo del pasajero.
Age: edad del pasajero.
SibSp: número de hermanos, hermanas, hermanastros o hermanastras en el barco.
Parch: número de padres e hijos en el barco.
Ticket: identificador del billete.
Fare: precio pagado por el billete.
Cabin: identificador del camarote asignado al pasajero.
Embarked: puerto en el que embarcó el pasajero.
Identifica las variables cuantitativas y cualitativas y declaralas bien en R.
PassengerId
identificador único del pasajero
Survived
si el pasajero sobrevivió al naufragio, codificada como 0 (no) y 1 (si). Esta es la variable respuesta que interesa predecir
Pclass
clase a la que pertenecía el pasajero: 1ª, 2ª o 3ª
Name
nombre del pasajero
Sex
sexo del pasajero
Age
edad del pasajero
SibSp
número de hermanos, hermanas, hermanastros o hermanastras en el barco
Parch
número de padres e hijos en el barco
Ticket
identificador del billete
Fare
precio pagado por el billete
Cabin
identificador del camarote asignado al pasajero
Embarked
puerto en el que embarcó el pasajero