馃搳
Depuraci贸n de Datos - TFG Estadistica
  • Declaraci贸n de autor铆a
  • Tema 1: An谩lisis Exploratorio de Datos
    • Tipos de variables
      • Ejercicios
    • Codificaci贸n y Transformaci贸n
      • Ejercicios
    • Gr谩ficos y Tablas
      • Ejercicios
    • Ejemplo de un an谩lisis descriptivo b谩sico para detectar errores e incongruencias
  • Tema 2: Control de integridad de los datos
    • Detecci贸n y tratamiento de datos at铆picos
      • Ejercicios
    • Detecci贸n de datos at铆picos y su tratamiento (automatizaci贸n)
    • Detecci贸n y tratamiento de duplicados
    • Ejercicios
    • Ejemplo de detecci贸n y tratamiento de at铆picos y duplicados
    • Detecci贸n de datos at铆picos de forma Multivariante
  • Tema 3: Valores perdidos
    • Detecci贸n de datos perdidos
    • Tratamiento de datos perdidos
    • PRACTICA 3
  • Tema 4: Evaluaci贸n de las hip贸tesis de partida para el an谩lisis de datos
    • Pruebas de Normalidad
      • Ejercicios
  • Bibliograf铆a
    • 馃摎Bibliograf铆a
Powered by GitBook
On this page
  • Estudio Univariante
  • Estudio Bivariante
  • Funci贸n outliers()
  1. Tema 2: Control de integridad de los datos

Ejercicios

PreviousDetecci贸n y tratamiento de duplicadosNextEjemplo de detecci贸n y tratamiento de at铆picos y duplicados

Last updated 1 year ago

Con la misma base de datos ozone de R comprueba si el resto de variables tienen datos at铆picos

data <- read.csv("ozone.csv")  # import data

Estudio Univariante

boxplot(data$Pressure_height)

###Los valores at铆picos son:

outlier_values <- boxplot.stats(data$Pressure_height)$out  # outlier values.

out_ind <- which(data$Pressure_height %in% c(outlier_values))



###Los valores extremos son:
extreme_values <- boxplot.stats(data$Pressure_height,coef=3)$out  # extreme values.

ext_ind <- which(data$Pressure_height %in% c(extreme_values))

Estudio Bivariante

par(mfrow=c(1, 2))
boxplot(data$Pressure_height ~ data$Month, main="Pressure Height across months") 

boxplot(data$Pressure_height ~ data$Day_of_week, main="Pressure Height for days of week")  

dev.off()

Funci贸n outliers()

La funci贸n propia outliers() proporciona datos at铆picos, modifica la funci贸n para detectar datos extremos y apl铆cala a las distintas variables de la base de datos ozone, luego piensa que har铆as

10KB
ozone.csv