Estudio y Depuración de Datos
  • Declaración de autoría
  • Tema 1: Análisis Exploratorio de Datos
    • Tipos de variables
      • Ejercicio: Tipos de Datos
        • Resultados
    • Codificación y Transformación
      • Ejercicio: Codificación y Transformación
        • Resultados
    • Descriptivos, Gráficos y Tablas
      • Ejercicio: Gráficos y Tablas
        • Resultados
    • Ejemplo de un análisis descriptivo básico para detectar errores e incongruencias
    • PRACTICA 1
      • Resultados
  • Tema 2: Control de integridad de los datos
    • Introducción a los datos atípicos
      • Ejercicios
        • Resultados
    • Detección y tratamiento de datos atípicos (univariante)
    • Detección y tratamiento de datos atípicos (bivariante)
      • Ejercicio I
        • Resultados
    • Detección de datos atípicos y su tratamiento (automatización)
      • Ejercicio I - automatización
        • Resultados
    • Detección y tratamiento de datos atípicos (multivariante)
      • Ejercicio II
        • Resultados
    • Detección y tratamiento de duplicados
      • Ejercicio
        • Reusltados
    • Ejemplo de detección y tratamiento de atípicos y duplicados
      • Resultados
    • PRACTICA 2
      • Resultados
  • Tema 3: Valores Perdidos
    • Detección de datos perdidos
      • Ejercicios
    • Tratamiento de datos perdidos (Imputación Simple)
      • Ejercicio - Epidemia Ébola
        • Resultados
      • Ejercicio - Tipos de datos missing
        • Resultados
    • Tratamiento de datos perdidos (Imputación Múltiple con MICE)
      • Ejercicio - MICE
        • Resultados
    • PRACTICA 3
      • Resultados
    • PRÁCTICA GRUPAL
  • Bibliografía
    • 📚Bibliografía
Powered by GitBook
On this page
  1. Tema 2: Control de integridad de los datos
  2. Detección y tratamiento de duplicados

Ejercicio

Con la siguiente base de datos generada en R, realiza los siguientes ejercicios:

set.seed(123)  # Para reproducibilidad

df <- data.frame(
  ID = c(1, 2, 3, 4, 5, 3, 4, 6, 7, 8, 2, 9, 10),  # ID con duplicados
  
    Nombre = c("Ana", "Luis", "Carlos", "Marta", "Sofía", "Carlos", "Marta", "Jorge", "Elena", "Daniel", "Luis", "Raúl", "Clara"),
  
    Edad = c(25, 30, 22, 28, 35, 22, 28, 40, 26, 32, 30, 45, 29),
  
    Ciudad = c("Madrid", "Barcelona", "Sevilla", "Madrid", "Bilbao", "Sevilla", "Madrid", "Valencia", "Zaragoza", "Barcelona", "Barcelona", "Málaga", "Granada")

)
  1. Identifica los duplicados en toda las fila

  2. Identifica los IDs de los duplicados

  3. Elimina los duplicados manteniendo la primera observación que aparece

PreviousDetección y tratamiento de duplicadosNextReusltados

Last updated 3 months ago