Estudio y Depuración de Datos
  • Declaración de autoría
  • Tema 1: Análisis Exploratorio de Datos
    • Tipos de variables
      • Ejercicio: Tipos de Datos
        • Resultados
    • Codificación y Transformación
      • Ejercicio: Codificación y Transformación
        • Resultados
    • Descriptivos, Gráficos y Tablas
      • Ejercicio: Gráficos y Tablas
        • Resultados
    • Ejemplo de un análisis descriptivo básico para detectar errores e incongruencias
    • PRACTICA 1
      • Resultados
  • Tema 2: Control de integridad de los datos
    • Introducción a los datos atípicos
      • Ejercicios
        • Resultados
    • Detección y tratamiento de datos atípicos (univariante)
    • Detección y tratamiento de datos atípicos (bivariante)
      • Ejercicio I
        • Resultados
    • Detección de datos atípicos y su tratamiento (automatización)
      • Ejercicio I - automatización
        • Resultados
    • Detección y tratamiento de datos atípicos (multivariante)
      • Ejercicio II
        • Resultados
    • Detección y tratamiento de duplicados
      • Ejercicio
        • Reusltados
    • Ejemplo de detección y tratamiento de atípicos y duplicados
      • Resultados
    • PRACTICA 2
      • Resultados
  • Tema 3: Valores Perdidos
    • Detección de datos perdidos
      • Ejercicios
    • Tratamiento de datos perdidos (Imputación Simple)
      • Ejercicio - Epidemia Ébola
        • Resultados
      • Ejercicio - Tipos de datos missing
        • Resultados
    • Tratamiento de datos perdidos (Imputación Múltiple con MICE)
      • Ejercicio - MICE
        • Resultados
    • PRACTICA 3
      • Resultados
    • PRÁCTICA GRUPAL
  • Bibliografía
    • 📚Bibliografía
Powered by GitBook
On this page
  1. Tema 2: Control de integridad de los datos

Ejemplo de detección y tratamiento de atípicos y duplicados

PreviousReusltadosNextResultados

Last updated 2 months ago

Vamos a ver un ejemplo con la siguiente base de datos (CEREALES) que contiene datos sobre la composición de diferentes variedades de cereales:

Las variables miden la composición de MANGANESO, CALORIAS, FIBRA, SELENIO y FOSFORO siendo variables medidas en escala continua que toman valores positivos y la variabe VARIEDAD que es una variable que mide el tipo de cereal.

Importa la base de datos y mira si hay posibles errores e incongruencias o hay que cambiar algún tipo de variable para ello piensa primero en el tipo de variable:

datos<-read.csv("CEREALES.csv")

str(datos)
summary(datos)

Después realiza un estudio para ver si hay datos atípicos, puedes seguir los siguientes pasos:

  1. Estudia de forma univariada los datos atípicos mediante unos gráficos y la obtención de los datos atípicos y extremos.

  2. Estudia de forma bivariada si son realmente atípicos considerando que en esta base de datos lo más seguro es que busquemos ver si hay diferencias de la composición entre las distintas variedades de cereal.

  3. Si así lo consideras, borra los datos atípicos y justifica por qué quitas o no los datos atípicos.

  4. Con la base de datos completa, aplica el algoritmo LOF para el estudio de datos atípicos multivariante.

Lectura y comprobación de errores y declaración de variables


datos<-read.csv("CEREALES.csv")


str(datos)

summary(datos)


datos$VARIEDAD<-factor(datos$VARIEDAD)

str(datos)

table(datos$VARIEDAD)



7KB
CEREALES.csv
Page cover image