---
title: "IA para Científicos Sociales"
subtitle: "Sesión 2.3: Laboratorio - Clasificación avanzada"
author:
- name: Danilo Freire
orcid: 0000-0002-4712-6810
email: danilofreire@gmail.com
affiliations: "Departament of Data and Decision Sciences
Emory University"
format:
clean-revealjs:
self-contained: true
footer: "[Sesión 2.3](https://danilofreire.github.io/introduccion-ia-ucu/clases/dia-02/05-laboratorio-03.html)"
transition: slide
transition-speed: default
scrollable: true
revealjs-plugins:
- multimodal
engine: knitr
editor:
render-on-save: true
lang: es
---
```{r setup, include=FALSE}
options(htmltools.dir.version = FALSE)
library(knitr)
opts_chunk$set(
prompt = T,
fig.align = "center",
dpi = 300,
cache = T,
engine.opts = list(bash = "-l")
)
knit_hooks$set(
prompt = function(before, options, envir) {
options(
prompt = if (options$engine %in% c("sh", "bash", "zsh")) "$ " else "R> ",
continue = if (options$engine %in% c("sh", "bash", "zsh")) "$ " else "+ "
)
}
)
options(repos = c(CRAN = "https://cran.rstudio.com/"))
if (!require("fontawesome", character.only = TRUE)) {
install.packages("fontawesome", dependencies = TRUE)
library(fontawesome, character.only = TRUE)
}
```
# Laboratorio 3: Clasificación avanzada {background-color="#2d4563"}
## Objetivos del laboratorio
:::{style="margin-top: 30px; font-size: 28px;"}
:::{.columns}
:::{.column width=50%}
**Lo que vamos a hacer:**
1. Predecir participación electoral
2. Baseline con regresión logística
3. Ajustar un Random Forest con CV
4. Interpretar con VIP y PDP
5. Comparar modelos en el conjunto de test
:::
:::{.column width=50%}
**Lo que vamos a aprender:**
- [Random Forest]{.alert} para clasificación
- [Tuning]{.alert} de hiperparámetros con grilla
- Interpretación de modelos complejos
- Cuándo vale la pena la complejidad extra
[Trabajen en sus computadoras y pregunten si tienen dudas.]{.alert}
:::
:::
:::
# Parte 1: Preparación y baseline {background-color="#2d4563"}
## Cargar los paquetes necesarios
:::{style="margin-top: 30px; font-size: 22px;"}
```{r cargar-paquetes, message=FALSE, warning=FALSE, prompt=FALSE, echo=TRUE}
# Instalar si es necesario
paquetes <- c("tidyverse", "tidymodels", "ranger", "vip", "pdp", "xgboost")
# require(): intenta cargar el paquete y devuelve TRUE/FALSE
# Si no está instalado (FALSE), lo instala y carga
for (pkg in paquetes) {
if (!require(pkg, character.only = TRUE)) {
install.packages(pkg, dependencies = TRUE)
library(pkg, character.only = TRUE)
}
}
# Cargar tidymodels (carga varios paquetes a la vez:
# rsample, parsnip, recipes, workflows, tune, yardstick, etc.)
library(tidymodels)
library(ranger) # Motor rápido para Random Forest
library(vip) # Variable Importance Plots
library(pdp) # Partial Dependence Plots
# Configurar semilla para reproducibilidad
set.seed(2026)
```
:::
## Cargar y explorar los datos
:::{style="margin-top: 30px; font-size: 20px;"}
```{r cargar-datos, prompt=FALSE, echo=TRUE}
# Cargar el dataset (generado con datos/crear-datos.R)
datos <- read_csv("datos/latinobarometro_sim.csv", show_col_types = FALSE)
# Convertir variables categóricas a factores
# El primer nivel de voto es la clase positiva para yardstick
datos <- datos |>
mutate(
pais = factor(pais),
zona = factor(zona),
genero = factor(genero),
uso_internet = factor(uso_internet, levels = c("nunca", "semanal", "diario")),
voto = factor(voto, levels = c("si", "no"))
)
# Estructura y distribución del voto
glimpse(datos)
datos |> count(voto) |> mutate(proporcion = n / sum(n))
```
:::
## Dividir los datos
:::{style="margin-top: 30px; font-size: 22px;"}
```{r dividir-datos, prompt=FALSE, echo=TRUE}
# initial_split(): divide los datos aleatoriamente en train y test
# prop = 0.75: 75% para entrenamiento, 25% para test
# strata = voto: estratificar para mantener la proporción de clases
division <- initial_split(datos, prop = 0.75, strata = voto)
datos_train <- training(division)
datos_test <- testing(division)
# Verificar proporciones
cat("Proporción en train:\n")
prop.table(table(datos_train$voto))
cat("\nProporción en test:\n")
prop.table(table(datos_test$voto))
```
:::
## Preprocesamiento con recipes
:::{style="margin-top: 30px; font-size: 20px;"}
```{r crear-receta, prompt=FALSE, echo=TRUE}
# recipe(): define el preprocesamiento como una "receta de cocina"
# voto ~ ...: la fórmula indica variable objetivo ~ predictores
receta <- recipe(voto ~ edad + educacion_anios + ingreso_hogar + zona +
genero + confianza_gobierno + confianza_justicia +
satisfaccion_democracia + percepcion_economia +
uso_internet + interes_politica,
data = datos_train) |>
# step_dummy(): convierte categóricas a variables indicadoras (0/1)
step_dummy(all_nominal_predictors()) |>
# step_normalize(): centra (media = 0) y escala (sd = 1) las numéricas
step_normalize(all_numeric_predictors()) |>
# step_zv(): elimina variables con varianza cero (constantes)
step_zv(all_predictors())
# prep(): estima los parámetros de la receta (ej: medias para normalizar)
# juice(): aplica la receta y devuelve los datos transformados
receta |> prep() |> juice() |> glimpse()
```
:::
## Modelo baseline: Regresión logística
:::{style="margin-top: 30px; font-size: 20px;"}
```{r modelo-baseline, prompt=FALSE, echo=TRUE}
# logistic_reg(): modelo de regresión logística
# set_engine("glm"): usar el motor glm de R base
# set_mode("classification"): tarea de clasificación (no regresión)
modelo_logit <- logistic_reg() |>
set_engine("glm") |>
set_mode("classification")
# workflow(): combina preprocesamiento (receta) + modelo en un solo objeto
wf_logit <- workflow() |>
add_recipe(receta) |> # agregar la receta de preprocesamiento
add_model(modelo_logit) # agregar el modelo
# fit(): ajustar el workflow completo a los datos de entrenamiento
ajuste_logit <- fit(wf_logit, data = datos_train)
# predict(): genera predicciones de clase ("si"/"no")
# type = "prob": genera probabilidades para cada clase (.pred_no, .pred_si)
# bind_cols(): une las columnas de predicciones con los datos reales
pred_logit <- predict(ajuste_logit, datos_test) |>
bind_cols(predict(ajuste_logit, datos_test, type = "prob")) |>
bind_cols(datos_test |> select(voto))
# metrics(): calcula múltiples métricas de evaluación
# truth: variable real, estimate: predicción de clase, .pred_si: probabilidades
metricas_logit <- pred_logit |>
metrics(truth = voto, estimate = .pred_class, .pred_si)
metricas_logit
```
:::
## Matriz de confusión del baseline
:::{style="margin-top: 30px; font-size: 22px;"}
```{r confusion-baseline, prompt=FALSE, echo=TRUE, fig.width=6, fig.height=5}
# conf_mat(): construye la tabla de predicho vs. real
# autoplot(type = "heatmap"): visualización como mapa de calor
conf_mat(pred_logit, truth = voto, estimate = .pred_class) |>
autoplot(type = "heatmap") +
scale_fill_gradient(low = "white", high = "#2d4563") +
labs(title = "Matriz de confusión - Regresión logística")
```
:::
## Ejercicio 1: Threshold óptimo {#sec:exercise01}
:::{style="margin-top: 30px; font-size: 22px;"}
**Instrucciones:**
1. Por defecto, clasificamos como "sí" si P(sí) > 0.5
2. Pero este threshold puede no ser óptimo
3. Usando `pred_logit`, creen predicciones con thresholds de 0.3, 0.5 y 0.7
4. Calculen el F1-score con `f_meas()` para cada threshold
5. ¿Cuál threshold maximiza el F1-score?
*Pista:* usen `ifelse(.pred_si > t, "si", "no")` para reclasificar y un `for` loop para probar varios valores.
[Tómense 5 minutos para experimentar.]{.alert}
[[Apéndice 1: Solución]{.button}](#sec:appendix01)
:::
# Parte 2: Random Forest con tuning {background-color="#2d4563"}
## Definir Random Forest con hiperparámetros a ajustar
:::{style="margin-top: 30px; font-size: 20px;"}
```{r rf-tune-spec, prompt=FALSE, echo=TRUE}
# rand_forest(): modelo de Random Forest
# tune(): marcador especial que indica "optimizar este valor automáticamente"
modelo_rf_tune <- rand_forest(
mtry = tune(), # Número de variables a considerar en cada split
trees = 500, # Número de árboles (fijo, no se optimiza)
min_n = tune() # Mínimo de observaciones en nodo terminal
) |>
# importance = "impurity": calcular importancia con reducción de impureza (Gini)
set_engine("ranger", importance = "impurity") |>
set_mode("classification")
# workflow(): combina receta + modelo
wf_rf_tune <- workflow() |>
add_recipe(receta) |>
add_model(modelo_rf_tune)
# extract_parameter_set_dials(): muestra los hiperparámetros marcados con tune()
modelo_rf_tune |> extract_parameter_set_dials()
```
:::
## Crear la grilla de búsqueda
:::{style="margin-top: 30px; font-size: 22px;"}
```{r crear-grilla, prompt=FALSE, echo=TRUE}
# grid_regular(): crea una grilla con valores uniformemente espaciados
# Cada parámetro tiene un rango definido; levels indica cuántos valores probar
grilla_rf <- grid_regular(
mtry(range = c(2, 8)), # De 2 a 8 variables por split
min_n(range = c(5, 30)), # De 5 a 30 obs mínimas por nodo
levels = c(4, 4) # 4 valores de cada uno = 4 x 4 = 16 combinaciones
)
# Ver la grilla
grilla_rf
# Alternativa: grilla aleatoria (más eficiente para muchos hiperparámetros)
# grilla_rf <- grid_random(
# mtry(range = c(2, 8)),
# min_n(range = c(5, 30)),
# size = 20 # 20 combinaciones aleatorias
# )
```
:::
## Configurar validación cruzada
:::{style="margin-top: 30px; font-size: 22px;"}
```{r crear-folds, prompt=FALSE, echo=TRUE}
# vfold_cv(): divide los datos en v grupos (folds) para validación cruzada
# strata = voto: estratificar para que cada fold mantenga la proporción de clases
folds <- vfold_cv(datos_train, v = 5, strata = voto)
# Ver los folds
folds
# Cada fold tiene ~300 obs en training y ~75 en assessment
```
:::{.callout-note}
Usamos 5 folds para equilibrar entre precisión de la estimación y tiempo de cómputo. Con más folds (10) las estimaciones son más estables pero toma más tiempo.
:::
:::
## Ejecutar el tuning
:::{style="margin-top: 30px; font-size: 20px;"}
```{r ejecutar-tuning, prompt=FALSE, echo=TRUE, cache=TRUE}
# tune_grid(): evalúa cada combinación de hiperparámetros con CV
# Para cada combinación de la grilla, entrena el modelo en cada fold
# y calcula las métricas especificadas
resultados_tune <- tune_grid(
wf_rf_tune, # el workflow con tune() pendientes
resamples = folds, # los folds de validación cruzada
grid = grilla_rf, # la grilla de combinaciones a probar
# metric_set(): define qué métricas calcular en cada evaluación
metrics = metric_set(accuracy, roc_auc, f_meas),
control = control_grid(verbose = FALSE) # no imprimir progreso
)
# collect_metrics(): extrae los resultados promediados de todos los folds
resultados_tune |>
collect_metrics() |>
filter(.metric == "roc_auc") |>
arrange(desc(mean))
```
:::
## Visualizar los resultados del tuning
:::{style="margin-top: 30px; font-size: 22px;"}
```{r viz-tuning, prompt=FALSE, echo=TRUE, fig.width=10, fig.height=5}
# autoplot(): método genérico que sabe graficar objetos de tidymodels
autoplot(resultados_tune) +
theme_minimal() +
labs(title = "Resultados del tuning de Random Forest")
```
:::
## Seleccionar y ajustar el modelo final
:::{style="margin-top: 30px; font-size: 20px;"}
```{r ajustar-final, prompt=FALSE, echo=TRUE}
# select_best(): elige la combinación con el mejor valor de la métrica
mejor_rf <- select_best(resultados_tune, metric = "roc_auc")
mejor_rf
# finalize_workflow(): reemplaza los tune() por los valores óptimos
# Luego ajustamos con todos los datos de entrenamiento
wf_rf_final <- finalize_workflow(wf_rf_tune, mejor_rf)
ajuste_rf <- fit(wf_rf_final, data = datos_train)
# Predicciones y métricas en test
pred_rf <- predict(ajuste_rf, datos_test) |>
bind_cols(predict(ajuste_rf, datos_test, type = "prob")) |>
bind_cols(datos_test |> select(voto))
metricas_rf <- pred_rf |>
metrics(truth = voto, estimate = .pred_class, .pred_si)
cat("Regresión logística:\n"); print(metricas_logit)
cat("\nRandom Forest:\n"); print(metricas_rf)
```
:::
## Curva ROC comparativa
:::{style="margin-top: 30px; font-size: 22px;"}
```{r curva-roc, prompt=FALSE, echo=TRUE, fig.width=8, fig.height=6}
# roc_curve(): calcula sensibilidad y especificidad para cada umbral
# truth: la variable real, .pred_si: probabilidades predichas
roc_logit <- pred_logit |>
roc_curve(truth = voto, .pred_si) |>
mutate(modelo = "Regresión logística")
roc_rf <- pred_rf |>
roc_curve(truth = voto, .pred_si) |>
mutate(modelo = "Random Forest")
# Combinar y graficar
bind_rows(roc_logit, roc_rf) |>
ggplot(aes(x = 1 - specificity, y = sensitivity, color = modelo)) +
geom_path(linewidth = 1.2) +
geom_abline(linetype = "dashed", color = "gray50") +
coord_equal() +
labs(title = "Comparación de curvas ROC",
x = "1 - Especificidad (Tasa de falsos positivos)",
y = "Sensibilidad (Tasa de verdaderos positivos)",
color = "Modelo") +
theme_minimal()
```
:::
# Parte 3: Interpretación {background-color="#2d4563"}
## Importancia de variables (Gini)
:::{style="margin-top: 30px; font-size: 20px;"}
```{r vip-gini, prompt=FALSE, echo=TRUE, fig.width=10, fig.height=6}
# extract_fit_parsnip(): extrae el modelo ajustado del workflow
# (devuelve un objeto parsnip, no el objeto nativo del motor)
modelo_extraido <- extract_fit_parsnip(ajuste_rf)
# vip(): gráfico de importancia de variables
# num_features: cuántas variables mostrar (las más importantes)
vip(modelo_extraido, num_features = 15) +
labs(title = "Importancia de variables (Gini)",
subtitle = "Random Forest para predicción de voto") +
theme_minimal()
```
:::
## Interpretación de la importancia
:::{style="margin-top: 30px; font-size: 24px;"}
:::{.columns}
:::{.column width=55%}
**¿Qué nos dice el gráfico?**
- Las variables [demográficas]{.alert} dominan el ranking:
- [Edad]{.alert} es el predictor más fuerte
- Educación y luego ingreso del hogar
- [Interés en la política]{.alert} es la actitud más predictiva, seguida de confianza en la justicia
- Confianza en la justicia supera a confianza en el gobierno
- Género, zona y uso de internet tienen [baja importancia]{.alert} predictiva
:::
:::{.column width=45%}
:::{.callout-warning}
**Cuidado con la interpretación**
La importancia de Gini mide [predictibilidad]{.alert}, no [efecto causal]{.alert}.
Que la edad sea importante no significa que "envejecer causa votar más", solo que la edad ayuda a predecir quién votará.
:::
:::
:::
:::
## Partial Dependence Plots
:::{style="margin-top: 30px; font-size: 18px;"}
```{r pdp-combinado, prompt=FALSE, echo=TRUE, fig.width=12, fig.height=4.5}
# extract_fit_engine(): extrae el objeto nativo del motor (ranger)
modelo_ranger <- extract_fit_engine(ajuste_rf)
# bake(): aplica la receta ya estimada a los datos de entrenamiento
datos_prep <- bake(prep(receta), new_data = datos_train)
# partial() calcula el efecto marginal sobre P(voto = "si")
# which.class = 1: primera clase del factor, es decir, "si"
pdp_edad <- partial(modelo_ranger, pred.var = "edad",
train = datos_prep, prob = TRUE, which.class = 1)
pdp_interes <- partial(modelo_ranger, pred.var = "interes_politica",
train = datos_prep, prob = TRUE, which.class = 1)
# Graficar lado a lado con patchwork (o cowplot)
library(patchwork)
p1 <- autoplot(pdp_edad) +
labs(title = "PDP: Edad", x = "Edad (normalizada)",
y = "P(voto = sí)") + theme_minimal()
p2 <- autoplot(pdp_interes) +
labs(title = "PDP: Interés en política", x = "Interés (normalizado)",
y = "P(voto = sí)") + theme_minimal()
p1 + p2
```
:::
## Interpretación de los PDPs
:::{style="margin-top: 30px; font-size: 24px;"}
:::{.columns}
:::{.column width=50%}
**Edad:**
- La probabilidad de votar [aumenta con la edad]{.alert}
- El efecto es más fuerte entre los más viejos
**Interés en política:**
- Relación [monotónica positiva]{.alert}
- Mayor interés → mayor probabilidad de votar
- El efecto es aproximadamente lineal
:::
:::{.column width=50%}
:::{.callout-tip}
**PDPs vs. coeficientes**
Los PDPs muestran relaciones [no lineales]{.alert} que la regresión logística no captura.
Si el PDP es aproximadamente lineal, la regresión logística podría ser suficiente.
Si el PDP tiene curvas o mesetas, Random Forest captura patrones que otros modelos pierden.
:::
:::
:::
:::
## Ejercicio 2: Análisis por país {#sec:exercise02}
:::{style="margin-top: 30px; font-size: 22px;"}
**Instrucciones:**
1. Filtrar los datos para Uruguay solamente
2. Entrenar el mismo modelo de Random Forest (sin tuning, con hiperparámetros fijos)
3. ¿Cambia la importancia de las variables?
4. ¿La edad sigue siendo el predictor más importante?
```{r ejercicio-2, eval=FALSE, prompt=FALSE, echo=TRUE}
# Tu código aquí
datos_uruguay <- datos |>
filter(pais == "Uruguay")
# Crear receta y workflow, ajustar el modelo...
# Comparar el VIP con el modelo general
```
[Pista: con pocos datos, usen hiperparámetros fijos en vez de tuning.]{.alert}
[[Apéndice 2: Solución]{.button}](#sec:appendix02)
:::
# Parte 4: Discusión y cierre {background-color="#2d4563"}
## ¿Cuál modelo elegir?
:::{style="margin-top: 30px; font-size: 24px;"}
:::{.columns}
:::{.column width=50%}
**Si el objetivo es [predicción pura]{.alert}:**
- Elegir el modelo con mejor AUC
- Random Forest suele superar a la regresión logística
- La interpretabilidad es secundaria
**Si el objetivo es [entender los factores]{.alert}:**
- Regresión logística da coeficientes interpretables
- Random Forest con VIP + PDP es un compromiso
:::
:::{.column width=50%}
**Consideraciones prácticas:**
- [Tiempo]{.alert}: RF es más lento que la regresión logística
- [Explicabilidad]{.alert}: ¿Podemos justificar las predicciones?
- [Mejora marginal]{.alert}: ¿Vale la pena 2% más de AUC?
[En ciencias sociales, la interpretabilidad suele ser tan importante como el rendimiento.]{.alert}
[[Apéndice 4: XGBoost opcional]{.button}](#sec:appendix04)
:::
:::
:::
## Resumen del laboratorio
:::{style="margin-top: 30px; font-size: 24px;"}
:::{.columns}
:::{.column width=50%}
**Lo que practicamos:**
- Flujo completo de clasificación
- Tuning de hiperparámetros con CV
- Interpretación con VIP y PDP
- Comparación de modelos en test
:::
:::{.column width=50%}
**Conceptos clave:**
- [tune()]{.alert} marca hiperparámetros a ajustar
- [grid_regular()]{.alert} crea combinaciones
- [tune_grid()]{.alert} evalúa con CV
- [select_best()]{.alert} elige la mejor combinación
- [finalize_workflow()]{.alert} aplica los valores
:::
:::
[En el próximo laboratorio aplicaremos estos conceptos a regresión.]{.alert}
:::
# Continuar con el laboratorio de regresión {background-color="#2d4563"}
# Apéndice: Soluciones {background-color="#2d4563"}
## Apéndice 1: Threshold óptimo {#sec:appendix01}
:::{style="margin-top: 20px; font-size: 20px;"}
```{r ap1-sol, prompt=FALSE, echo=TRUE, eval=TRUE, fig.width=8, fig.height=4}
# Probar thresholds de 0.3 a 0.7 y guardar los resultados
thresholds <- seq(0.3, 0.7, by = 0.05)
resultados <- data.frame(threshold = numeric(), f1 = numeric())
for (t in thresholds) {
pred_nuevo <- pred_logit |>
mutate(.pred_class_nuevo = factor(
ifelse(.pred_si > t, "si", "no"),
levels = c("si", "no")))
f1 <- f_meas(pred_nuevo, truth = voto,
estimate = .pred_class_nuevo)
resultados <- rbind(resultados,
data.frame(threshold = t, f1 = f1$.estimate))
}
# Ver todos los resultados, ordenados de mejor a peor
resultados |> arrange(desc(f1))
# Visualizar
ggplot(resultados, aes(x = threshold, y = f1)) +
geom_line(linewidth = 1.2, color = "#2d4563") +
geom_point(size = 3, color = "#2d4563") +
labs(title = "F1-score según el threshold de clasificación",
x = "Threshold", y = "F1-score") +
theme_minimal()
```
- Un threshold [más bajo]{.alert} (p. ej., 0.3) predice "sí" con más facilidad: aumenta el recall pero reduce la precisión
- Un threshold [más alto]{.alert} (p. ej., 0.7) es más conservador: menos falsos positivos, pero pierde más votantes reales
- El threshold óptimo depende del [costo relativo]{.alert} de cada tipo de error
[[Volver al ejercicio]{.button}](#sec:exercise01)
:::
## Apéndice 2: Análisis por país {#sec:appendix02}
:::{style="margin-top: 20px; font-size: 20px;"}
```{r ap2-sol, prompt=FALSE, echo=TRUE, eval=TRUE, fig.width=10, fig.height=5}
# Filtrar datos de Uruguay
datos_uruguay <- datos |> filter(pais == "Uruguay")
cat("Observaciones en Uruguay:", nrow(datos_uruguay), "\n")
# Con pocos datos (~28 obs), no dividimos en train/test
# Entrenamos con todo el subconjunto solo para comparar VIP
receta_uy <- recipe(voto ~ edad + educacion_anios + ingreso_hogar + zona +
genero + confianza_gobierno + confianza_justicia +
satisfaccion_democracia + percepcion_economia +
uso_internet + interes_politica,
data = datos_uruguay) |>
step_dummy(all_nominal_predictors()) |>
step_normalize(all_numeric_predictors()) |>
step_zv(all_predictors())
modelo_rf_uy <- rand_forest(trees = 500, mtry = 4, min_n = 3) |>
set_engine("ranger", importance = "impurity") |>
set_mode("classification")
ajuste_rf_uy <- workflow() |>
add_recipe(receta_uy) |>
add_model(modelo_rf_uy) |>
fit(data = datos_uruguay)
# Comparar importancia de variables
vip(extract_fit_parsnip(ajuste_rf_uy), num_features = 10) +
labs(title = "Importancia de variables - solo Uruguay",
subtitle = paste0("n = ", nrow(datos_uruguay), " observaciones")) +
theme_minimal()
```
- Con tan pocos datos (~28 obs), los resultados son [inestables]{.alert}: cambian con la semilla
- El ranking de importancia puede diferir del modelo general
- Para conclusiones confiables a nivel país, necesitaríamos [muestras más grandes]{.alert}
[[Volver al ejercicio]{.button}](#sec:exercise02)
:::
## Apéndice 3: Árbol de decisión {#sec:appendix03}
:::{style="margin-top: 20px; font-size: 20px;"}
```{r ap3-sol, prompt=FALSE, echo=TRUE, eval=TRUE, cache=TRUE}
# Modelo de árbol con costo de complejidad a ajustar
modelo_arbol <- decision_tree(
cost_complexity = tune(),
tree_depth = 10,
min_n = 10
) |>
set_engine("rpart") |>
set_mode("classification")
# Workflow con la misma receta
wf_arbol <- workflow() |>
add_recipe(receta) |>
add_model(modelo_arbol)
# Grilla de búsqueda para cost_complexity
# range en escala log10: 10^-4 = 0.0001 a 10^-1 = 0.1
grilla_arbol <- grid_regular(
cost_complexity(range = c(-4, -1)),
levels = 10
)
# Tuning con validación cruzada (reutilizamos folds)
resultados_arbol <- tune_grid(
wf_arbol,
resamples = folds,
grid = grilla_arbol,
metrics = metric_set(roc_auc),
control = control_grid(verbose = FALSE)
)
# Mejor modelo
mejor_arbol <- select_best(resultados_arbol, metric = "roc_auc")
cat("Mejor cost_complexity:", mejor_arbol$cost_complexity, "\n")
```
```{r ap3-eval, prompt=FALSE, echo=TRUE, eval=TRUE, fig.width=10, fig.height=5}
# Ajustar y evaluar
wf_arbol_final <- finalize_workflow(wf_arbol, mejor_arbol)
ajuste_arbol <- fit(wf_arbol_final, data = datos_train)
pred_arbol <- predict(ajuste_arbol, datos_test) |>
bind_cols(predict(ajuste_arbol, datos_test, type = "prob")) |>
bind_cols(datos_test |> select(voto))
# Comparar métricas
cat("Árbol de decisión:\n")
print(pred_arbol |> metrics(truth = voto, estimate = .pred_class, .pred_si))
cat("\nRandom Forest:\n")
print(metricas_rf)
# Visualizar el tuning
autoplot(resultados_arbol) +
theme_minimal() +
labs(title = "Tuning del árbol de decisión")
```
- El árbol de decisión suele tener [menor AUC]{.alert} que Random Forest
- A cambio, es mucho más [interpretable]{.alert}: se puede visualizar como un diagrama de flujo
- `cost_complexity` controla la poda: valores más altos producen árboles más simples
:::
## Apéndice 4: XGBoost opcional {#sec:appendix04}
:::{style="margin-top: 20px; font-size: 18px;"}
```{r ap4-xgb, prompt=FALSE, echo=TRUE, eval=TRUE, cache=TRUE}
# boost_tree(): Gradient Boosting (árboles secuenciales)
# tree_depth y learn_rate a optimizar; min_n fijo
modelo_xgb <- boost_tree(
trees = 500,
tree_depth = tune(),
learn_rate = tune(),
min_n = 10
) |>
set_engine("xgboost") |>
set_mode("classification")
wf_xgb <- workflow() |>
add_recipe(receta) |>
add_model(modelo_xgb)
# learn_rate en escala log10: 10^-3 a 10^-1
grilla_xgb <- grid_regular(
tree_depth(range = c(3, 8)),
learn_rate(range = c(-3, -1)),
levels = c(3, 3)
)
resultados_xgb <- tune_grid(
wf_xgb, resamples = folds, grid = grilla_xgb,
metrics = metric_set(roc_auc),
control = control_grid(verbose = FALSE)
)
mejor_xgb <- select_best(resultados_xgb, metric = "roc_auc")
wf_xgb_final <- finalize_workflow(wf_xgb, mejor_xgb)
ajuste_xgb <- fit(wf_xgb_final, data = datos_train)
# Predicciones y comparación final
pred_xgb <- predict(ajuste_xgb, datos_test) |>
bind_cols(predict(ajuste_xgb, datos_test, type = "prob")) |>
bind_cols(datos_test |> select(voto))
bind_rows(
pred_logit |> metrics(truth = voto, estimate = .pred_class, .pred_si) |>
mutate(modelo = "Regresión logística"),
pred_rf |> metrics(truth = voto, estimate = .pred_class, .pred_si) |>
mutate(modelo = "Random Forest"),
pred_xgb |> metrics(truth = voto, estimate = .pred_class, .pred_si) |>
mutate(modelo = "XGBoost")
) |>
select(modelo, .metric, .estimate) |>
pivot_wider(names_from = .metric, values_from = .estimate) |>
arrange(desc(roc_auc))
```
- XGBoost suele igualar o superar a Random Forest en datasets tabulares
- Requiere más tuning (tree_depth, learn_rate, trees) y más tiempo de cómputo
- En ciencias sociales, la mejora marginal rara vez justifica la pérdida de interpretabilidad
:::