# Código Páctica 2: Descripción de variables


#1. Cargar librerías

pacman::p_load(dplyr, #Manipulación de datos
               stargazer, #Tablas
               sjmisc, # Tablas
               summarytools, # Tablas
               kableExtra, #Tablas
               sjPlot, #Tablas y gráficos
               corrplot, # Correlaciones
               sessioninfo) # Información de la sesión de trabajo

#2. Datos

## Desde internet

load(url("https://multivariada.netlify.app/assignment/data/proc/ELSOC_ess_merit2016.RData"))

names(proc_elsoc) #Ver nombres variables
dim(proc_elsoc) # Ver cantidad de casos y variables de la base

## Variables:

#[pmerit] = Indice promedio de percepción de meritocracia.

#[ess] = Estatus Social Subjetivo: Donde se ubicaria ud. en la sociedad chilena" (0 = el nivel mas bajo; 10 = el nivel mas alto)

#[edcine] = Nivel educacional(1 = Primaria incompleta menos, 2 = Primaria y secundaria baja, 3 = Secundaria alta, 4 = Terciaria ciclo corto, 5 = Terciaria y Postgrado)

#[sexo] = Sexo (O = Hombre; 1 = Mujer)

#[edad] = ¿Cuáles su edad? (años cumplidos)


# 3. Descripción de variables

## Tabla descriptiva de variables para sección metodológica

### Tabla descriptiva con stargazer

stargazer(proc_elsoc,type = "text") 

### Tablas descriptivas con descr, librería sjmisc

sjmisc::descr(proc_elsoc)

sjmisc::descr(proc_elsoc,
              show = c("label","range", "mean", "sd", "NA.prc", "n"))%>%
  kable(.,"markdown") 

### Tabla descriptiva con summarytools::dfSummary

dfSummary(proc_elsoc, plain.ascii = FALSE)

view(dfSummary(proc_elsoc, headings=FALSE))

## Extraer NA de la base de datos

proc_elsoc_original <-proc_elsoc # Respaldo base original

dim(proc_elsoc) # Dimensión base de datos

sum(is.na(proc_elsoc)) # Cantidad NA en la base

proc_elsoc <-na.omit(proc_elsoc) # Eliminar NA

dim(proc_elsoc) # Dimensión base posterior eliminación de NA

proc_elsoc <-sjlabelled::copy_labels(proc_elsoc,proc_elsoc_original) # Restaurar etiquetas de base respaldada

## Exploración de asociación entre variables

#Asociaciones dependiendo de las variables:
#Variables categóricas: tablas de contingencia.
#Variable categórica y continua: tabla de estadisticos por categoría o gráficos de caja y bigote.
#Variables continuas: correlaciones.

## Tabla de contingencia para variables categóricas

sjt.xtab(proc_elsoc$edcine, proc_elsoc$sexo) #Tabla de contingencia


sjt.xtab(proc_elsoc$edcine, proc_elsoc$sexo,
         show.col.prc=TRUE,
         show.summary=FALSE)

## Tabla de estadísticos de variable continua por categorías

tapply(proc_elsoc$pmerit, proc_elsoc$edcine, mean) #Tabla simple

proc_elsoc %>% # se especifica la base de datos
  select(pmerit,edcine) %>% # se seleccionan las variables
  dplyr::group_by(Educación=sjlabelled::as_label(edcine)) %>% # se agrupan por la variable categórica y se usan sus etiquetas con as_label
  dplyr::summarise(Obs.=n(),Promedio=mean(pmerit),SD=sd(pmerit)) %>% # se agregan las operaciones a presentar en la tabla
  kable( format = "markdown") # se genera la tabla

## Gráficos de caja y bigote por categoría

plot_grpfrq(proc_elsoc$pmerit,proc_elsoc$edcine,
            type = "box")

## Correlaciones (variables continuas)


M <- cor(proc_elsoc) # Forma básica de visualizar correlaciones
M

### Tablas de correlaciones

tab_corr(proc_elsoc) 


tab_corr(proc_elsoc,
         triangle = "lower") 

### Matriz de correlaciones

corrplot.mixed(M) 

names(proc_elsoc) # Nombres variables

### Nube de puntos (scatter plot)

plot_scatter(proc_elsoc, edad, ess)

## Nota final
sessionInfo() # Información sobre la sesión de R
session_info("sessioninfo")$platform #Información más precisa
package_info(pkgs = (.packages()), dependencies = FALSE) # Información sobre paquetes