# Código de Preparación de datos

# 1. Cargar librerías ----

pacman::p_load(dplyr, summarytools, sjmisc)

# 2. Cargar datos ----

## Base de datos COVID 19 al 25 de abril de 2020

covid <- read.csv("/cloud/project/2020-05-29-CasosConfirmados.csv")
  
## Base de datos CASEN 2017
load("/cloud/project/casen2017_sub.RData"); casen17 <- BCASEN1;remove(BCASEN1)

# 3. Seleccion de variables a utilizar y renombrar variables ----

# Para CASEN
names(casen17)
casen1 <- casen17 %>% select(cod_comuna=comuna,"dorm_hh"=v27a,tot_per) %>% mutate(hacinamiento=tot_per/dorm_hh)
#Para COVID
names(covid)
covid1 <- covid %>% select(comuna=Comuna,cod_comuna=Codigo.comuna,poblacion=Poblacion,casos_conf=Casos.Confirmados) %>% mutate(t_contagio = (casos_conf*100000)/poblacion)

# 4. Procesamiento de variables ----

# 4.1 Descriptivo por cada variable

view(dfsummary(casen1, plan.ascii = F))
view(dfsummary(casen1, plan.ascii = F))

# 4.2 Recodificación
casen1$dorm_hh[casen17$dorm_hh==99] <-NA
casen1$dorm_hh[casen17$dorm_hh==0]  <-NA

# 4.3 Calcular índice de hacinamiento

casen2 <- casen1 %>% group_by(cod_comuna) %>% summarise(mean_hacinamiento=mean(hacinamiento,na.rm = T))

# 4.4 Desetiquetar variables
casen2 <- sjlabelled::remove_all_labels(casen2)

# 4.5 Unir bases de datos
casen_covid19 <- left_join(x = covid1,y =casen2)

# 5. Guardar bases de datos ----
save(casen_covid19, file = "CASEN-COVID19.RData")