PRACTICA 3

En el dataset de Titanic las variables disponibles son:

PassengerId

identificador único del pasajero

Survived

si el pasajero sobrevivió al naufragio, codificada como 0 (no) y 1 (si). Esta es la variable respuesta que interesa predecir

Pclass

clase a la que pertenecía el pasajero: 1, 2 o 3

Name

nombre del pasajero

Sex

sexo del pasajero

Age

edad del pasajero

SibSp

número de hermanos, hermanas, hermanastros o hermanastras en el barco

Parch

número de padres e hijos en el barco

Ticket

identificador del billete

Fare

precio pagado por el billete

Cabin

identificador del camarote asignado al pasajero

Embarked

puerto en el que embarcó el pasajero

load("Titanic.Rdata")
  1. Identifica las variables cuantitativas y cualitativas.

  2. Visualiza y Cuantifica los datos missing. Después decide a qué tipo de datos missing (MCAR, MAR o MNAR) pertenecen los missing de cada variable.

  3. Realiza una imputación simple de la siguiente forma.

    1. Para las variables cualitativas imputa por la moda.

    2. Para las variables cuantitativas imputa por la media y un modelo de regresión. Ten en cuenta que la variable Age está asociada con Survived, Pclass y SibSp. La variable SibSP está asociada con Survived, Pclass, Age y Fare y la variable Fare está asociada con Sex, SibSp, Age y Survived.

    3. Recuerda comprobar las imputaciones gráficamente y comenta si te parece que se ha imputado bien o mal o regular cada variable.

  4. Realiza una imputación múltiple con mice(), para ello ten en cuenta que seguramente no tenga sentido usar todas las variables de la base de datos. Después contesta a las siguientes preguntas:

    1. ¿Con qué métodose ha imputado cada variable en la función mice?

    2. Una vez comprobada la imputación múltiple mediante gráficos ¿Qué te parece que ocurre con la variable Fare?

    3. ¿Cuál es la proporción de la variable Sex cuando se imputa por la moda y cuando se imputa por mice? ¿Cuál crees que será una imputación más correcta?

Last updated