{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "mP9aApBqQJed" }, "source": [ "Entrenamiento de modelos con Feature Stores\n", "============================================" ] }, { "cell_type": "markdown", "metadata": { "id": "2V8sUvroQJej" }, "source": [ "## Introducción\n", "\n", "Los almacenes de predictores (Feature stores) son repositorios centralizados donde se almacenan todas las diferentes características asociadas con una organización o una vertical del negocio y cuyo objetivo es facilitar su reutilización. Por lo general, ofrecen la capacidad de consumir características de forma offline, es decir cuando se diseña el modelo, y online, es decir cuando el modelo está en ejecución, lo que asegura de que sean coherentes entre sí.\n", "\n", "En este ejemplo veremos como podemos cargar predictores dentro de un feature store y como podemos consultarlos para luego utilizarlos durante el entrenamiento del modelo." ] }, { "cell_type": "markdown", "source": [ "Existen varias plataformas tecnologías de feature, dentro de las más populares están:\n", "\n", "* Feather\n", "* Feast\n", "* Databricks\n", "\n", "En este ejemplo, utilizaremos Feast." ], "metadata": { "id": "7GJi-ZRM0LsE" } }, { "cell_type": "markdown", "metadata": { "id": "tRmZrmz7QJel" }, "source": [ "### Instalación" ] }, { "cell_type": "markdown", "metadata": { "id": "3Yj6mHMaQJel" }, "source": [ "Necesitaremos instalar las librerias:" ] }, { "cell_type": "code", "source": [ "!pip install feast --quiet" ], "metadata": { "id": "86u_ZNec0P9C" }, "execution_count": 2, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "tTLrI09WQJeo" }, "source": [ "### Sobre el conjunto de datos del censo UCI\n", "\n", "El conjunto de datos del censo de la UCI es un conjunto de datos en el que cada registro representa a una persona. Cada registro contiene 14 columnas que describen a una una sola persona, de la base de datos del censo de Estados Unidos de 1994. Esto incluye información como la edad, el estado civil y el nivel educativo. La tarea es determinar si una persona tiene un ingreso alto (definido como ganar más de $50 mil al año). Esta tarea, dado el tipo de datos que utiliza, se usa a menudo en el estudio de equidad, en parte debido a los atributos comprensibles del conjunto de datos, incluidos algunos que contienen tipos sensibles como la edad y el género, y en parte también porque comprende una tarea claramente del mundo real." ] }, { "cell_type": "markdown", "metadata": { "id": "vWyomYxTQJep" }, "source": [ "Descargamos el conjunto de datos" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "ovck-xIsQJeq" }, "outputs": [], "source": [ "!wget https://santiagxf.blob.core.windows.net/public/datasets/uci_census.zip \\\n", " --quiet --no-clobber\n", "!mkdir -p datasets/uci_census\n", "!unzip -qq uci_census.zip -d datasets/uci_census" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3.8.12 ('sphinx')", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.12" }, "vscode": { "interpreter": { "hash": "c0c26a04c01997af4d3a54c44ba2029caf4208eaf3de13f3aa81bddca06af044" } }, "colab": { "provenance": [], "toc_visible": true } }, "nbformat": 4, "nbformat_minor": 0 }