Valores perdidos en R

Mucha de las bases de datos que encontramos tienen valores faltantes, es algo común y debemos saber lidear con ellos y utilizar técnicas para manejarlo.

Primero ante todo es necesario saber la cantidad de valores faltantes por variable, y de acuerdo a ello se podra tomar una decisión sobre el futuro de la variable. Puede que la variable sea eliminada o que los valores faltantes sean imputados.

Para realizar el conteo de los valores perdido por variable instalaremos la libreria VIM y la librería TutorinR

install.packages("devtools")
library("devtools")
install_github("tutorin/tutorinR")
install.packages("VIM")
library("tutorinR")
library("VIM")

Paso siguiente, cargaremos una data de demostración y lo haremos de la siguiente manera

data<-read.csv(url('https://datahack-prod.s3.ap-south-1.amazonaws.com/train_file/train_u6lujuX_CVtuZ9i.csv'))
str(data)
  1. 'data.frame': 614 obs. of 13 variables:
  2. $ Loan_ID : Factor w/ 614 levels "LP001002","LP001003",..: 1 2 3 4 5 6 7 8 9 10 ...
  3. $ Gender : Factor w/ 3 levels "","Female","Male": 3 3 3 3 3 3 3 3 3 3 ...
  4. $ Married : Factor w/ 3 levels "","No","Yes": 2 3 3 3 2 3 3 3 3 3 ...
  5. $ Dependents : Factor w/ 5 levels "","0","1","2",..: 2 3 2 2 2 4 2 5 4 3 ...
  6. $ Education : Factor w/ 2 levels "Graduate","Not Graduate": 1 1 1 2 1 1 2 1 1 1 ...
  7. $ Self_Employed : Factor w/ 3 levels "","No","Yes": 2 2 3 2 2 3 2 2 2 2 ...
  8. $ ApplicantIncome : int 5849 4583 3000 2583 6000 5417 2333 3036 4006 12841 ...
  9. $ CoapplicantIncome: num 0 1508 0 2358 0 ...
  10. $ LoanAmount : int NA 128 66 120 141 267 95 158 168 349 ...
  11. $ Loan_Amount_Term : int 360 360 360 360 360 360 360 360 360 360 ...
  12. $ Credit_History : int 1 1 1 1 1 1 1 0 1 1 ...
  13. $ Property_Area : Factor w/ 3 levels "Rural","Semiurban",..: 3 1 3 3 3 3 3 2 3 2 ...
  14. $ Loan_Status : Factor w/ 2 levels "N","Y": 2 1 2 2 2 2 2 1 2 1 ...