{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Population Stability Index (PSI) - (desviación covariable y de concepto)\n",
    "==============================================================================================================="
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Introducción"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "El índice de estabilidad de la población (PSI) es una métrica para medir cuánto ha cambiado la distribución de un predictor entre dos muestras distintas. Por lo general, PSI se usa para medir la estabilidad de los modelos o las cualidades de sus predictores. Es una métrica que encuentra sus origenes en los modelos de predicciones de riesgo crediticio.   \n",
    "\n",
    "Dadas dos conjuntos de datos: origen y objetivo, el PSI se calculará mediante los siguientes pasos:\n",
    "\n",
    " * Se realiza un agrupamiento de los cuantiles de los predictores del conjunto original y objetivo.\n",
    " * Se calcular el porcentaje de cada intervalo (Q), que viene dado por $$ Q = \\frac{recuento\\;de\\;muestras\\;en\\;intervalo}{número\\;total\\;de\\;muestras} $$\n",
    " * Finalmente podemos calcular PSI como:\n",
    "\n",
    " $$ \\sum  (Q_t - Q_s)*ln(\\frac{Q_t}{Q_s}) $$\n",
    "\n",
    "Este índice puede interpretarse de la siguiente manera:\n",
    "\n",
    "* **PSI < 0.1**: No existe un cambio significativo en las características de las muestras.\n",
    "* **PSI > 0.1 y PSI < 0.2**: Hay un cambio moderado en las características de las muestras.\n",
    "* **PSI > 0.2**: Existe un cambio significativo en las características de las muestras.\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Ejemplo:\n",
    "\n",
    "Para visualizar el concepto de desviación, usaremos los datos de IRIS dataset para generar lotes con distribuciones distintas de los datos. Posteriormente veremos como la performance del modelo se degrada y como podríamos detectar este hecho utilizando la métrica PSI. El conjunto de datos de IRIS es parte de la biblioteca sklearn que constan de 3 tipos diferentes de longitud de pétalo y sépalo (Setosa, Versicolour y Virginica), descriptos por la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo:\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "\n",
    "from sklearn import datasets\n",
    "\n",
    "iris = datasets.load_iris()\n",
    "X = iris.data[:,:2]\n",
    "y = iris.target"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Como podemos observar, el conjunto de datos está balanceado, teniendo 50 observaciones para cada uno de los tipos de pétalos disponibles."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD4CAYAAAD8Zh1EAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAAMrElEQVR4nO3dYYhl513H8e/P3ZRKG2mWnd2uTdJVWMRYaBKGGAlINU2Jqbh5YSQF6yKBRVFIQZC1guK71BdFBEGXNjhiWw20cZfY1m7XhiLU2ElMmoRN3VhiDFl2p6k2CYqS+vfFnMiymck9d2buzN6/3w8s95xzz537PDzZb27O3HuTqkKSNP++b6cHIEnaGgZdkpow6JLUhEGXpCYMuiQ1sXs7n2zv3r118ODB7XxKSZp7jz766LeramHSedsa9IMHD7K8vLydTylJcy/Jv4w5z0suktSEQZekJgy6JDVh0CWpCYMuSU0YdElqYtTbFpM8B7wCfA94raoWk+wB/hI4CDwH/EJV/dtshilJmmSaV+g/VVXXV9XisH8MOF1Vh4DTw74kaYds5pLLYWBp2F4C7tz0aCRJGzb2k6IFfClJAX9SVceB/VV1DqCqziXZt9YDkxwFjgJce+21Gx7owWN/veHH6s09d98HZ/JzXbPZcc3mz6zW7GJjg35LVb04RPtUkmfGPsEQ/+MAi4uL/u+RJGlGRl1yqaoXh9sLwIPATcD5JAcAhtsLsxqkJGmyiUFP8rYkV76+DXwAeAo4CRwZTjsCnJjVICVJk4255LIfeDDJ6+d/uqq+mOTrwANJ7gGeB+6a3TAlSZNMDHpVfQt47xrHXwJuncWgJEnT85OiktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaGB30JLuS/GOSh4b9PUlOJTk73F41u2FKkiaZ5hX6vcCZi/aPAaer6hBwetiXJO2QUUFPcjXwQeATFx0+DCwN20vAnVs6MknSVMa+Qv8D4DeB/7no2P6qOgcw3O5b64FJjiZZTrK8srKymbFKkt7ExKAn+VngQlU9upEnqKrjVbVYVYsLCwsb+RGSpBF2jzjnFuDnktwBvBX4gSR/DpxPcqCqziU5AFyY5UAlSW9u4iv0qvqtqrq6qg4CdwN/W1W/CJwEjgynHQFOzGyUkqSJNvM+9PuA25KcBW4b9iVJO2TMJZf/U1UPAw8P2y8Bt279kCRJG+EnRSWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNTEx6EnemuQfkjyR5Okkvzcc35PkVJKzw+1Vsx+uJGk9Y16h/xfw01X1XuB64PYkNwPHgNNVdQg4PexLknbIxKDXqleH3SuGPwUcBpaG40vAnbMYoCRpnFHX0JPsSvI4cAE4VVWPAPur6hzAcLtvZqOUJE00KuhV9b2quh64GrgpyXvGPkGSo0mWkyyvrKxscJiSpEmmepdLVf078DBwO3A+yQGA4fbCOo85XlWLVbW4sLCwudFKktY15l0uC0neMWx/P/B+4BngJHBkOO0IcGJGY5QkjbB7xDkHgKUku1j9F8ADVfVQkq8BDyS5B3geuGuG45QkTTAx6FX1DeCGNY6/BNw6i0FJkqbnJ0UlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpiYlBT3JNkq8kOZPk6ST3Dsf3JDmV5Oxwe9XshytJWs+YV+ivAb9RVT8K3Az8WpLrgGPA6ao6BJwe9iVJO2Ri0KvqXFU9Nmy/ApwB3gUcBpaG05aAO2c0RknSCFNdQ09yELgBeATYX1XnYDX6wL51HnM0yXKS5ZWVlU0OV5K0ntFBT/J24LPAR6rq5bGPq6rjVbVYVYsLCwsbGaMkaYRRQU9yBasx/1RVfW44fD7JgeH+A8CF2QxRkjTGmHe5BPgkcKaqPn7RXSeBI8P2EeDE1g9PkjTW7hHn3AJ8GHgyyePDsY8C9wEPJLkHeB64ayYjlCSNMjHoVfV3QNa5+9atHY4kaaP8pKgkNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYmBj3J/UkuJHnqomN7kpxKcna4vWq2w5QkTTLmFfqfArdfcuwYcLqqDgGnh31J0g6aGPSq+irwnUsOHwaWhu0l4M6tHZYkaVobvYa+v6rOAQy3+9Y7McnRJMtJlldWVjb4dJKkSWb+S9GqOl5Vi1W1uLCwMOunk6T/tzYa9PNJDgAMtxe2bkiSpI3YaNBPAkeG7SPAia0ZjiRpo8a8bfEzwNeAH0nyQpJ7gPuA25KcBW4b9iVJO2j3pBOq6kPr3HXrFo9FkrQJflJUkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmthU0JPcnuSbSZ5NcmyrBiVJmt6Gg55kF/BHwM8A1wEfSnLdVg1MkjSdzbxCvwl4tqq+VVX/DfwFcHhrhiVJmtbuTTz2XcC/XrT/AvDjl56U5ChwdNh9Nck3L7p7L/DtTYzhcjY3c8vHpjp9buY1pbmal2sGzNm8plizteb17jEP3EzQs8axesOBquPA8TV/QLJcVYubGMNlq+vcnNf86To35/VGm7nk8gJwzUX7VwMvbuLnSZI2YTNB/zpwKMkPJXkLcDdwcmuGJUma1oYvuVTVa0l+HfgbYBdwf1U9PeWPWfNSTBNd5+a85k/XuTmvS6TqDZe9JUlzyE+KSlITBl2SmtjWoCfZk+RUkrPD7VXrnPdckieTPJ5keTvHOI1JX32QVX843P+NJDfuxDg3YsTc3pfku8MaPZ7kd3ZinNNIcn+SC0meWuf+eV6vSXObu/UCSHJNkq8kOZPk6ST3rnHO3K3byHlNv2ZVtW1/gN8Hjg3bx4CPrXPec8De7RzbBuayC/hn4IeBtwBPANddcs4dwBdYfc/+zcAjOz3uLZzb+4CHdnqsU87rJ4EbgafWuX8u12vk3OZuvYZxHwBuHLavBP6pw9+zkfOaes22+5LLYWBp2F4C7tzm599KY7764DDwZ7Xq74F3JDmw3QPdgJZf61BVXwW+8yanzOt6jZnbXKqqc1X12LD9CnCG1U+pX2zu1m3kvKa23UHfX1XnYHVCwL51zivgS0keHb464HK01lcfXLogY865HI0d908keSLJF5L82PYMbabmdb3Gmuv1SnIQuAF45JK75nrd3mReMOWabeaj/+sN7svAO9e467en+DG3VNWLSfYBp5I8M7wCuZyM+eqDUV+PcBkaM+7HgHdX1atJ7gD+Cjg064HN2Lyu1xhzvV5J3g58FvhIVb186d1rPGQu1m3CvKZesy1/hV5V76+q96zx5wRw/vX/FBpuL6zzM14cbi8AD7J6CeByM+arD+b16xEmjruqXq6qV4ftzwNXJNm7fUOciXldr4nmeb2SXMFq9D5VVZ9b45S5XLdJ89rImm33JZeTwJFh+whw4tITkrwtyZWvbwMfANb8zf0OG/PVByeBXxp+C38z8N3XLzld5ibOLck7k2TYvonVf5Ze2vaRbq15Xa+J5nW9hjF/EjhTVR9f57S5W7cx89rImm35JZcJ7gMeSHIP8DxwF0CSHwQ+UVV3APuBB4d57AY+XVVf3OZxTlTrfPVBkl8Z7v9j4POs/gb+WeA/gF/eqfFOY+Tcfh741SSvAf8J3F3Dr+YvV0k+w+o7B/YmeQH4XeAKmO/1glFzm7v1GtwCfBh4Msnjw7GPAtfCXK/bmHlNvWZ+9F+SmvCTopLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1IT/wt7dWHNdjuTxwAAAABJRU5ErkJggg==",
      "image/svg+xml": "<?xml version=\"1.0\" encoding=\"utf-8\" standalone=\"no\"?>\n<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n  \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n<!-- Created with matplotlib (https://matplotlib.org/) -->\n<svg height=\"248.518125pt\" version=\"1.1\" viewBox=\"0 0 372.528511 248.518125\" width=\"372.528511pt\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\n <metadata>\n  <rdf:RDF xmlns:cc=\"http://creativecommons.org/ns#\" xmlns:dc=\"http://purl.org/dc/elements/1.1/\" xmlns:rdf=\"http://www.w3.org/1999/02/22-rdf-syntax-ns#\">\n   <cc:Work>\n    <dc:type rdf:resource=\"http://purl.org/dc/dcmitype/StillImage\"/>\n    <dc:date>2021-06-23T21:46:38.702823</dc:date>\n    <dc:format>image/svg+xml</dc:format>\n    <dc:creator>\n     <cc:Agent>\n      <dc:title>Matplotlib v3.3.4, https://matplotlib.org/</dc:title>\n     </cc:Agent>\n    </dc:creator>\n   </cc:Work>\n  </rdf:RDF>\n </metadata>\n <defs>\n  <style type=\"text/css\">*{stroke-linecap:butt;stroke-linejoin:round;}</style>\n </defs>\n <g id=\"figure_1\">\n  <g id=\"patch_1\">\n   <path d=\"M -0 248.518125 \nL 372.528511 248.518125 \nL 372.528511 0 \nL -0 0 \nz\n\" style=\"fill:none;\"/>\n  </g>\n  <g id=\"axes_1\">\n   <g id=\"patch_2\">\n    <path d=\"M 26.925 224.64 \nL 361.725 224.64 \nL 361.725 7.2 \nL 26.925 7.2 \nz\n\" style=\"fill:#ffffff;\"/>\n   </g>\n   <g id=\"patch_3\">\n    <path clip-path=\"url(#p4c61930220)\" d=\"M 42.143182 224.64 \nL 129.104221 224.64 \nL 129.104221 17.554286 \nL 42.143182 17.554286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"patch_4\">\n    <path clip-path=\"url(#p4c61930220)\" d=\"M 150.844481 224.64 \nL 237.805519 224.64 \nL 237.805519 17.554286 \nL 150.844481 17.554286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"patch_5\">\n    <path clip-path=\"url(#p4c61930220)\" d=\"M 259.545779 224.64 \nL 346.506818 224.64 \nL 346.506818 17.554286 \nL 259.545779 17.554286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"matplotlib.axis_1\">\n    <g id=\"xtick_1\">\n     <g id=\"line2d_1\">\n      <defs>\n       <path d=\"M 0 0 \nL 0 3.5 \n\" id=\"m22b3e83b16\" style=\"stroke:#000000;stroke-width:0.8;\"/>\n      </defs>\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"31.273052\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_1\">\n      <!-- −0.5 -->\n      <g transform=\"translate(19.131646 239.238438)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 10.59375 35.5 \nL 73.1875 35.5 \nL 73.1875 27.203125 \nL 10.59375 27.203125 \nz\n\" id=\"DejaVuSans-8722\"/>\n        <path d=\"M 31.78125 66.40625 \nQ 24.171875 66.40625 20.328125 58.90625 \nQ 16.5 51.421875 16.5 36.375 \nQ 16.5 21.390625 20.328125 13.890625 \nQ 24.171875 6.390625 31.78125 6.390625 \nQ 39.453125 6.390625 43.28125 13.890625 \nQ 47.125 21.390625 47.125 36.375 \nQ 47.125 51.421875 43.28125 58.90625 \nQ 39.453125 66.40625 31.78125 66.40625 \nz\nM 31.78125 74.21875 \nQ 44.046875 74.21875 50.515625 64.515625 \nQ 56.984375 54.828125 56.984375 36.375 \nQ 56.984375 17.96875 50.515625 8.265625 \nQ 44.046875 -1.421875 31.78125 -1.421875 \nQ 19.53125 -1.421875 13.0625 8.265625 \nQ 6.59375 17.96875 6.59375 36.375 \nQ 6.59375 54.828125 13.0625 64.515625 \nQ 19.53125 74.21875 31.78125 74.21875 \nz\n\" id=\"DejaVuSans-48\"/>\n        <path d=\"M 10.6875 12.40625 \nL 21 12.40625 \nL 21 0 \nL 10.6875 0 \nz\n\" id=\"DejaVuSans-46\"/>\n        <path d=\"M 10.796875 72.90625 \nL 49.515625 72.90625 \nL 49.515625 64.59375 \nL 19.828125 64.59375 \nL 19.828125 46.734375 \nQ 21.96875 47.46875 24.109375 47.828125 \nQ 26.265625 48.1875 28.421875 48.1875 \nQ 40.625 48.1875 47.75 41.5 \nQ 54.890625 34.8125 54.890625 23.390625 \nQ 54.890625 11.625 47.5625 5.09375 \nQ 40.234375 -1.421875 26.90625 -1.421875 \nQ 22.3125 -1.421875 17.546875 -0.640625 \nQ 12.796875 0.140625 7.71875 1.703125 \nL 7.71875 11.625 \nQ 12.109375 9.234375 16.796875 8.0625 \nQ 21.484375 6.890625 26.703125 6.890625 \nQ 35.15625 6.890625 40.078125 11.328125 \nQ 45.015625 15.765625 45.015625 23.390625 \nQ 45.015625 31 40.078125 35.4375 \nQ 35.15625 39.890625 26.703125 39.890625 \nQ 22.75 39.890625 18.8125 39.015625 \nQ 14.890625 38.140625 10.796875 36.28125 \nz\n\" id=\"DejaVuSans-53\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-8722\"/>\n       <use x=\"83.789062\" xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"147.412109\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"179.199219\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_2\">\n     <g id=\"line2d_2\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"85.623701\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_2\">\n      <!-- 0.0 -->\n      <g transform=\"translate(77.672139 239.238438)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_3\">\n     <g id=\"line2d_3\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"139.974351\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_3\">\n      <!-- 0.5 -->\n      <g transform=\"translate(132.022788 239.238438)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_4\">\n     <g id=\"line2d_4\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"194.325\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_4\">\n      <!-- 1.0 -->\n      <g transform=\"translate(186.373437 239.238438)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 12.40625 8.296875 \nL 28.515625 8.296875 \nL 28.515625 63.921875 \nL 10.984375 60.40625 \nL 10.984375 69.390625 \nL 28.421875 72.90625 \nL 38.28125 72.90625 \nL 38.28125 8.296875 \nL 54.390625 8.296875 \nL 54.390625 0 \nL 12.40625 0 \nz\n\" id=\"DejaVuSans-49\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_5\">\n     <g id=\"line2d_5\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"248.675649\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_5\">\n      <!-- 1.5 -->\n      <g transform=\"translate(240.724087 239.238438)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_6\">\n     <g id=\"line2d_6\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"303.026299\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_6\">\n      <!-- 2.0 -->\n      <g transform=\"translate(295.074736 239.238438)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 19.1875 8.296875 \nL 53.609375 8.296875 \nL 53.609375 0 \nL 7.328125 0 \nL 7.328125 8.296875 \nQ 12.9375 14.109375 22.625 23.890625 \nQ 32.328125 33.6875 34.8125 36.53125 \nQ 39.546875 41.84375 41.421875 45.53125 \nQ 43.3125 49.21875 43.3125 52.78125 \nQ 43.3125 58.59375 39.234375 62.25 \nQ 35.15625 65.921875 28.609375 65.921875 \nQ 23.96875 65.921875 18.8125 64.3125 \nQ 13.671875 62.703125 7.8125 59.421875 \nL 7.8125 69.390625 \nQ 13.765625 71.78125 18.9375 73 \nQ 24.125 74.21875 28.421875 74.21875 \nQ 39.75 74.21875 46.484375 68.546875 \nQ 53.21875 62.890625 53.21875 53.421875 \nQ 53.21875 48.921875 51.53125 44.890625 \nQ 49.859375 40.875 45.40625 35.40625 \nQ 44.1875 33.984375 37.640625 27.21875 \nQ 31.109375 20.453125 19.1875 8.296875 \nz\n\" id=\"DejaVuSans-50\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_7\">\n     <g id=\"line2d_7\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"357.376948\" xlink:href=\"#m22b3e83b16\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_7\">\n      <!-- 2.5 -->\n      <g transform=\"translate(349.425386 239.238438)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n   </g>\n   <g id=\"matplotlib.axis_2\">\n    <g id=\"ytick_1\">\n     <g id=\"line2d_8\">\n      <defs>\n       <path d=\"M 0 0 \nL -3.5 0 \n\" id=\"mdf4cc8bf2c\" style=\"stroke:#000000;stroke-width:0.8;\"/>\n      </defs>\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_8\">\n      <!-- 0 -->\n      <g transform=\"translate(13.5625 228.439219)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_2\">\n     <g id=\"line2d_9\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"183.222857\"/>\n      </g>\n     </g>\n     <g id=\"text_9\">\n      <!-- 10 -->\n      <g transform=\"translate(7.2 187.022076)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_3\">\n     <g id=\"line2d_10\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"141.805714\"/>\n      </g>\n     </g>\n     <g id=\"text_10\">\n      <!-- 20 -->\n      <g transform=\"translate(7.2 145.604933)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_4\">\n     <g id=\"line2d_11\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"100.388571\"/>\n      </g>\n     </g>\n     <g id=\"text_11\">\n      <!-- 30 -->\n      <g transform=\"translate(7.2 104.18779)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 40.578125 39.3125 \nQ 47.65625 37.796875 51.625 33 \nQ 55.609375 28.21875 55.609375 21.1875 \nQ 55.609375 10.40625 48.1875 4.484375 \nQ 40.765625 -1.421875 27.09375 -1.421875 \nQ 22.515625 -1.421875 17.65625 -0.515625 \nQ 12.796875 0.390625 7.625 2.203125 \nL 7.625 11.71875 \nQ 11.71875 9.328125 16.59375 8.109375 \nQ 21.484375 6.890625 26.8125 6.890625 \nQ 36.078125 6.890625 40.9375 10.546875 \nQ 45.796875 14.203125 45.796875 21.1875 \nQ 45.796875 27.640625 41.28125 31.265625 \nQ 36.765625 34.90625 28.71875 34.90625 \nL 20.21875 34.90625 \nL 20.21875 43.015625 \nL 29.109375 43.015625 \nQ 36.375 43.015625 40.234375 45.921875 \nQ 44.09375 48.828125 44.09375 54.296875 \nQ 44.09375 59.90625 40.109375 62.90625 \nQ 36.140625 65.921875 28.71875 65.921875 \nQ 24.65625 65.921875 20.015625 65.03125 \nQ 15.375 64.15625 9.8125 62.3125 \nL 9.8125 71.09375 \nQ 15.4375 72.65625 20.34375 73.4375 \nQ 25.25 74.21875 29.59375 74.21875 \nQ 40.828125 74.21875 47.359375 69.109375 \nQ 53.90625 64.015625 53.90625 55.328125 \nQ 53.90625 49.265625 50.4375 45.09375 \nQ 46.96875 40.921875 40.578125 39.3125 \nz\n\" id=\"DejaVuSans-51\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-51\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_5\">\n     <g id=\"line2d_12\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"58.971429\"/>\n      </g>\n     </g>\n     <g id=\"text_12\">\n      <!-- 40 -->\n      <g transform=\"translate(7.2 62.770647)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 37.796875 64.3125 \nL 12.890625 25.390625 \nL 37.796875 25.390625 \nz\nM 35.203125 72.90625 \nL 47.609375 72.90625 \nL 47.609375 25.390625 \nL 58.015625 25.390625 \nL 58.015625 17.1875 \nL 47.609375 17.1875 \nL 47.609375 0 \nL 37.796875 0 \nL 37.796875 17.1875 \nL 4.890625 17.1875 \nL 4.890625 26.703125 \nz\n\" id=\"DejaVuSans-52\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-52\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_6\">\n     <g id=\"line2d_13\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#mdf4cc8bf2c\" y=\"17.554286\"/>\n      </g>\n     </g>\n     <g id=\"text_13\">\n      <!-- 50 -->\n      <g transform=\"translate(7.2 21.353504)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-53\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n   </g>\n   <g id=\"patch_6\">\n    <path d=\"M 26.925 224.64 \nL 26.925 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_7\">\n    <path d=\"M 361.725 224.64 \nL 361.725 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_8\">\n    <path d=\"M 26.925 224.64 \nL 361.725 224.64 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_9\">\n    <path d=\"M 26.925 7.2 \nL 361.725 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n  </g>\n </g>\n <defs>\n  <clipPath id=\"p4c61930220\">\n   <rect height=\"217.44\" width=\"334.8\" x=\"26.925\" y=\"7.2\"/>\n  </clipPath>\n </defs>\n</svg>\n",
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "from collections import Counter\n",
    "\n",
    "def plot_distribution(y):\n",
    "    labels, q = zip(*sorted(Counter(y).items()))\n",
    "    plt.bar(labels, q)\n",
    "    plt.show()\n",
    "\n",
    "plot_distribution(y)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Entrenaremos un modelo para resolver el problema. Primero, dividiremos los datos en conjuntos de entrenamiento y validación, como es costrumbre, para luego definir nuestro algoritmo de aprendizaje. En este caso, utilizaremos un simple SVM y lo entrenamos sobre los datos:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn import svm\n",
    "from sklearn.model_selection import train_test_split\n",
    "\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, stratify=y)\n",
    "\n",
    "model = svm.SVC(C=1.0, kernel='linear', gamma=0.5, probability=True)\n",
    "model = model.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Verificamos la performance de nuestro modelo de clasificación:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "              precision    recall  f1-score   support\n",
      "\n",
      "           0       1.00      1.00      1.00        16\n",
      "           1       0.62      0.76      0.68        17\n",
      "           2       0.69      0.53      0.60        17\n",
      "\n",
      "    accuracy                           0.76        50\n",
      "   macro avg       0.77      0.76      0.76        50\n",
      "weighted avg       0.77      0.76      0.76        50\n",
      "\n",
      "F1: 0.7566315789473684\n"
     ]
    }
   ],
   "source": [
    "from sklearn.metrics import classification_report\n",
    "from sklearn.metrics import f1_score\n",
    "\n",
    "y_pred = model.predict(X_test)\n",
    "print(classification_report(y_test, y_pred))\n",
    "print(\"F1:\",f1_score(y_test, y_pred, average='weighted'))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Simulando un cambio en la distribución de las clases\n",
    "\n",
    "La siguiente función nos permitirá alterar la distribución de las observaciones presentes en el set de datos, es decir, generará un nuevo conjunto de datos cuyas proporciones de las observaciones estarán alteradas por el parámetro `weights` que las especifica. Este parametro es un arreglo donde el primer valor corresponde a la proporción de la clase `1 (Setosa)`, el segundo a la `2 (Versicolour)` y el tercero a la `3 (Virginica)`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "def simulate_samples(nsamples, X_source, y_source, weights):\n",
    "    totals = np.round(np.array(weights) * nsamples).astype(int)\n",
    "    indices = np.arange(y_source.size)\n",
    "    new_indices = []\n",
    "    for i, c in enumerate(np.unique(y_source)):\n",
    "        new_indices.extend(np.random.choice(indices[y_source==c], totals[i], replace=True))\n",
    "     \n",
    "    y_new = y_source[new_indices]\n",
    "    X_new = X_source[new_indices,:]\n",
    "    return(X_new, y_new)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Generemos un nuevo conjunto de datos con las proporciones 10%, 10% y 80%:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD4CAYAAAD8Zh1EAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAAO1klEQVR4nO3dfaied33H8fdnaUTRDlNyGs9sYzYpY13BtByyjoJ01kqNY6kwwcK6MApxw0IFYWQOpv5Xhw9jMNyiLWabOgraNdT6kGUWEVzdaZe2KamLk8zVhuSoaFs2HK3f/XGuwiE9d+/rfjon92/vF9xcT7/7vr4/fu2nV69zPaSqkCTNv1/Y7AIkSdNhoEtSIwx0SWqEgS5JjTDQJakRF23kzrZv3167du3ayF1K0tx7+OGHf1hVC8PabWig79q1i+Xl5Y3cpSTNvST/2aedp1wkqREGuiQ1wkCXpEYY6JLUCANdkhphoEtSI3oHepItSf4tyf3d8iVJjiY51U23za5MSdIwoxyh3wGcXLN8EDhWVVcAx7plSdIm6RXoSS4D3gF8es3qfcDhbv4wcPNUK5MkjaTvnaJ/AfwxcPGadTuq6gxAVZ1Jcul6X0xyADgAsHPnzvErlTRzuw5+abNLaNbpO98x830MPUJP8tvAuap6eJwdVNWhqlqqqqWFhaGPIpAkjanPEfp1wO8k2Qu8EvjFJH8PnE2y2B2dLwLnZlmoJOnlDT1Cr6o/qarLqmoX8G7gn6vq94AjwP6u2X7gvplVKUkaapLr0O8EbkxyCrixW5YkbZKRHp9bVQ8CD3bzPwJumH5JkqRxeKeoJDXCQJekRhjoktQIA12SGmGgS1IjDHRJaoSBLkmNMNAlqREGuiQ1wkCXpEYY6JLUCANdkhphoEtSIwx0SWqEgS5JjTDQJakRfV4S/cok307yaJInkny4W/+hJD9Icrz77J19uZKkQfq8sehnwFuq6rkkW4FvJvlyt+0TVfXR2ZUnSepraKBXVQHPdYtbu0/NsihJ0uh6nUNPsiXJceAccLSqHuo23Z7ksSR3J9k2qyIlScP1CvSqeqGqdgOXAXuSXAV8EngjsBs4A3xsve8mOZBkOcnyysrKVIqWJL3USFe5VNVPgAeBm6rqbBf0Pwc+BewZ8J1DVbVUVUsLCwuT1itJGqDPVS4LSV7bzb8KeCvwZJLFNc3eCZyYSYWSpF76XOWyCBxOsoXV/wDcU1X3J/m7JLtZ/QPpaeA9M6tSkjRUn6tcHgOuXmf9rTOpSJI0Fu8UlaRGGOiS1AgDXZIaYaBLUiMMdElqhIEuSY0w0CWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJaoSBLkmNMNAlqREGuiQ1wkCXpEb0eafoK5N8O8mjSZ5I8uFu/SVJjiY51U23zb5cSdIgfY7Qfwa8pareBOwGbkpyLXAQOFZVVwDHumVJ0iYZGui16rlucWv3KWAfcLhbfxi4eRYFSpL66XUOPcmWJMeBc8DRqnoI2FFVZwC66aUDvnsgyXKS5ZWVlSmVLUk6X69Ar6oXqmo3cBmwJ8lVfXdQVYeqaqmqlhYWFsYsU5I0zEhXuVTVT4AHgZuAs0kWAbrpuWkXJ0nqr89VLgtJXtvNvwp4K/AkcATY3zXbD9w3oxolST1c1KPNInA4yRZW/wNwT1Xdn+RbwD1JbgO+D7xrhnVKkoYYGuhV9Rhw9TrrfwTcMIuiJEmj805RSWqEgS5JjTDQJakRBrokNcJAl6RGGOiS1AgDXZIaYaBLUiMMdElqhIEuSY0w0CWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJakSfd4penuTrSU4meSLJHd36DyX5QZLj3Wfv7MuVJA3S552izwPvr6pHklwMPJzkaLftE1X10dmVJ0nqq887Rc8AZ7r5Z5OcBF4/68IkSaMZ6Rx6kl2svjD6oW7V7UkeS3J3km0DvnMgyXKS5ZWVlcmqlSQN1DvQk7wG+ALwvqp6Bvgk8EZgN6tH8B9b73tVdaiqlqpqaWFhYfKKJUnr6hXoSbayGuafraovAlTV2ap6oap+DnwK2DO7MiVJw/S5yiXAXcDJqvr4mvWLa5q9Ezgx/fIkSX31ucrlOuBW4PEkx7t1HwBuSbIbKOA08J4Z1CdJ6qnPVS7fBLLOpgemX44kaVzeKSpJjTDQJakRBrokNcJAl6RGGOiS1AgDXZIaYaBLUiMMdElqhIEuSY0w0CWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJaoSBLkmN6PNO0cuTfD3JySRPJLmjW39JkqNJTnXTbbMvV5I0SJ8j9OeB91fVrwHXAu9NciVwEDhWVVcAx7plSdImGRroVXWmqh7p5p8FTgKvB/YBh7tmh4GbZ1SjJKmHkc6hJ9kFXA08BOyoqjOwGvrApQO+cyDJcpLllZWVCcuVJA3SO9CTvAb4AvC+qnqm7/eq6lBVLVXV0sLCwjg1SpJ66BXoSbayGuafraovdqvPJlnsti8C52ZToiSpjz5XuQS4CzhZVR9fs+kIsL+b3w/cN/3yJEl9XdSjzXXArcDjSY536z4A3Anck+Q24PvAu2ZSoSSpl6GBXlXfBDJg8w3TLUeSNC7vFJWkRhjoktQIA12SGmGgS1IjDHRJaoSBLkmNMNAlqREGuiQ1wkCXpEYY6JLUCANdkhphoEtSIwx0SWqEgS5JjTDQJakRBrokNcJAl6RG9Hmn6N1JziU5sWbdh5L8IMnx7rN3tmVKkobpc4T+GeCmddZ/oqp2d58HpluWJGlUQwO9qr4B/HgDapEkTWCSc+i3J3msOyWzbVCjJAeSLCdZXllZmWB3kqSXM26gfxJ4I7AbOAN8bFDDqjpUVUtVtbSwsDDm7iRJw4wV6FV1tqpeqKqfA58C9ky3LEnSqMYK9CSLaxbfCZwY1FaStDEuGtYgyeeB64HtSZ4CPghcn2Q3UMBp4D2zK1GS1MfQQK+qW9ZZfdcMapEkTcA7RSWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJaoSBLkmNMNAlqREGuiQ1wkCXpEYY6JLUCANdkhphoEtSIwx0SWqEgS5JjTDQJakRQwM9yd1JziU5sWbdJUmOJjnVTbfNtkxJ0jB9jtA/A9x03rqDwLGqugI41i1LkjbR0ECvqm8APz5v9T7gcDd/GLh5umVJkkY17jn0HVV1BqCbXjqoYZIDSZaTLK+srIy5O0nSMDP/o2hVHaqqpapaWlhYmPXuJOn/rXED/WySRYBuem56JUmSxjFuoB8B9nfz+4H7plOOJGlcfS5b/DzwLeBXkzyV5DbgTuDGJKeAG7tlSdImumhYg6q6ZcCmG6ZciyRpAt4pKkmNMNAlqREGuiQ1wkCXpEYY6JLUCANdkhphoEtSIwx0SWqEgS5JjTDQJakRBrokNcJAl6RGGOiS1AgDXZIaYaBLUiMMdElqhIEuSY0Y+sail5PkNPAs8ALwfFUtTaMoSdLoJgr0zm9V1Q+n8DuSpAl4ykWSGjHpEXoBX0tSwN9U1aHzGyQ5ABwA2Llz59g72nXwS2N/Vy/v9J3vmMnvOmazM6sx03yb9Aj9uqq6Bng78N4kbz6/QVUdqqqlqlpaWFiYcHeSpEEmCvSqerqbngPuBfZMoyhJ0ujGDvQkr05y8YvzwNuAE9MqTJI0mknOoe8A7k3y4u98rqq+MpWqJEkjGzvQq+p7wJumWIskaQJetihJjTDQJakRBrokNcJAl6RGGOiS1AgDXZIaYaBLUiMMdElqhIEuSY0w0CWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJaoSBLkmNmCjQk9yU5DtJvpvk4LSKkiSNbpKXRG8B/gp4O3AlcEuSK6dVmCRpNJMcoe8BvltV36uq/wX+Adg3nbIkSaMa+yXRwOuB/1qz/BTwG+c3SnIAONAtPpfkO2s2bwd+OEENF7K56Vs+MlLzuenXiOaqX44ZMGf9GmHM1uvXG/p8cZJAzzrr6iUrqg4Bh9b9gWS5qpYmqOGC1Wrf7Nf8abVv9uulJjnl8hRw+Zrly4CnJ/g9SdIEJgn0fwWuSPLLSV4BvBs4Mp2yJEmjGvuUS1U9n+R24KvAFuDuqnpixJ9Z91RMI1rtm/2aP632zX6dJ1UvOe0tSZpD3ikqSY0w0CWpERsa6EkuSXI0yaluum1Au9NJHk9yPMnyRtY4imGPPsiqv+y2P5bkms2ocxw9+nZ9kp92Y3Q8yZ9tRp2jSHJ3knNJTgzYPs/jNaxvczdeAEkuT/L1JCeTPJHkjnXazN249ezX6GNWVRv2Af4cONjNHwQ+MqDdaWD7RtY2Rl+2AP8B/ArwCuBR4Mrz2uwFvszqNfvXAg9tdt1T7Nv1wP2bXeuI/XozcA1wYsD2uRyvnn2bu/Hq6l4ErunmLwb+vYV/z3r2a+Qx2+hTLvuAw938YeDmDd7/NPV59ME+4G9r1b8Ar02yuNGFjqHJxzpU1TeAH79Mk3kdrz59m0tVdaaqHunmnwVOsnqX+lpzN249+zWyjQ70HVV1BlY7BFw6oF0BX0vycPfogAvReo8+OH9A+rS5EPWt+zeTPJrky0l+fWNKm6l5Ha++5nq8kuwCrgYeOm/TXI/by/QLRhyzSW79H1TcPwGvW2fTn47wM9dV1dNJLgWOJnmyOwK5kPR59EGvxyNcgPrU/Qjwhqp6Lsle4B+BK2Zd2IzN63j1MdfjleQ1wBeA91XVM+dvXucrczFuQ/o18phN/Qi9qt5aVVet87kPOPvi/wp103MDfuPpbnoOuJfVUwAXmj6PPpjXxyMMrbuqnqmq57r5B4CtSbZvXIkzMa/jNdQ8j1eSrayG3mer6ovrNJnLcRvWr3HGbKNPuRwB9nfz+4H7zm+Q5NVJLn5xHngbsO5f7jdZn0cfHAF+v/sr/LXAT1885XSBG9q3JK9Lkm5+D6v/LP1owyudrnkdr6Hmdby6mu8CTlbVxwc0m7tx69OvccZs6qdchrgTuCfJbcD3gXcBJPkl4NNVtRfYAdzb9eMi4HNV9ZUNrnOoGvDogyR/2G3/a+ABVv8C/13gv4E/2Kx6R9Gzb78L/FGS54H/Ad5d3Z/mL1RJPs/qlQPbkzwFfBDYCvM9XtCrb3M3Xp3rgFuBx5Mc79Z9ANgJcz1uffo18ph5678kNcI7RSWpEQa6JDXCQJekRhjoktQIA12SGmGgS1IjDHRJasT/Ab1/MBgp7iR/AAAAAElFTkSuQmCC",
      "image/svg+xml": "<?xml version=\"1.0\" encoding=\"utf-8\" standalone=\"no\"?>\n<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n  \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n<!-- Created with matplotlib (https://matplotlib.org/) -->\n<svg height=\"248.518125pt\" version=\"1.1\" viewBox=\"0 0 372.528511 248.518125\" width=\"372.528511pt\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\n <metadata>\n  <rdf:RDF xmlns:cc=\"http://creativecommons.org/ns#\" xmlns:dc=\"http://purl.org/dc/elements/1.1/\" xmlns:rdf=\"http://www.w3.org/1999/02/22-rdf-syntax-ns#\">\n   <cc:Work>\n    <dc:type rdf:resource=\"http://purl.org/dc/dcmitype/StillImage\"/>\n    <dc:date>2021-06-23T21:46:41.296704</dc:date>\n    <dc:format>image/svg+xml</dc:format>\n    <dc:creator>\n     <cc:Agent>\n      <dc:title>Matplotlib v3.3.4, https://matplotlib.org/</dc:title>\n     </cc:Agent>\n    </dc:creator>\n   </cc:Work>\n  </rdf:RDF>\n </metadata>\n <defs>\n  <style type=\"text/css\">*{stroke-linecap:butt;stroke-linejoin:round;}</style>\n </defs>\n <g id=\"figure_1\">\n  <g id=\"patch_1\">\n   <path d=\"M -0 248.518125 \nL 372.528511 248.518125 \nL 372.528511 0 \nL -0 0 \nz\n\" style=\"fill:none;\"/>\n  </g>\n  <g id=\"axes_1\">\n   <g id=\"patch_2\">\n    <path d=\"M 26.925 224.64 \nL 361.725 224.64 \nL 361.725 7.2 \nL 26.925 7.2 \nz\n\" style=\"fill:#ffffff;\"/>\n   </g>\n   <g id=\"patch_3\">\n    <path clip-path=\"url(#pbfc94f0ea9)\" d=\"M 42.143182 224.64 \nL 129.104221 224.64 \nL 129.104221 198.754286 \nL 42.143182 198.754286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"patch_4\">\n    <path clip-path=\"url(#pbfc94f0ea9)\" d=\"M 150.844481 224.64 \nL 237.805519 224.64 \nL 237.805519 198.754286 \nL 150.844481 198.754286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"patch_5\">\n    <path clip-path=\"url(#pbfc94f0ea9)\" d=\"M 259.545779 224.64 \nL 346.506818 224.64 \nL 346.506818 17.554286 \nL 259.545779 17.554286 \nz\n\" style=\"fill:#1f77b4;\"/>\n   </g>\n   <g id=\"matplotlib.axis_1\">\n    <g id=\"xtick_1\">\n     <g id=\"line2d_1\">\n      <defs>\n       <path d=\"M 0 0 \nL 0 3.5 \n\" id=\"meb1de8e775\" style=\"stroke:#000000;stroke-width:0.8;\"/>\n      </defs>\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"31.273052\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_1\">\n      <!-- −0.5 -->\n      <g transform=\"translate(19.131646 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 10.59375 35.5 \nL 73.1875 35.5 \nL 73.1875 27.203125 \nL 10.59375 27.203125 \nz\n\" id=\"DejaVuSans-8722\"/>\n        <path d=\"M 31.78125 66.40625 \nQ 24.171875 66.40625 20.328125 58.90625 \nQ 16.5 51.421875 16.5 36.375 \nQ 16.5 21.390625 20.328125 13.890625 \nQ 24.171875 6.390625 31.78125 6.390625 \nQ 39.453125 6.390625 43.28125 13.890625 \nQ 47.125 21.390625 47.125 36.375 \nQ 47.125 51.421875 43.28125 58.90625 \nQ 39.453125 66.40625 31.78125 66.40625 \nz\nM 31.78125 74.21875 \nQ 44.046875 74.21875 50.515625 64.515625 \nQ 56.984375 54.828125 56.984375 36.375 \nQ 56.984375 17.96875 50.515625 8.265625 \nQ 44.046875 -1.421875 31.78125 -1.421875 \nQ 19.53125 -1.421875 13.0625 8.265625 \nQ 6.59375 17.96875 6.59375 36.375 \nQ 6.59375 54.828125 13.0625 64.515625 \nQ 19.53125 74.21875 31.78125 74.21875 \nz\n\" id=\"DejaVuSans-48\"/>\n        <path d=\"M 10.6875 12.40625 \nL 21 12.40625 \nL 21 0 \nL 10.6875 0 \nz\n\" id=\"DejaVuSans-46\"/>\n        <path d=\"M 10.796875 72.90625 \nL 49.515625 72.90625 \nL 49.515625 64.59375 \nL 19.828125 64.59375 \nL 19.828125 46.734375 \nQ 21.96875 47.46875 24.109375 47.828125 \nQ 26.265625 48.1875 28.421875 48.1875 \nQ 40.625 48.1875 47.75 41.5 \nQ 54.890625 34.8125 54.890625 23.390625 \nQ 54.890625 11.625 47.5625 5.09375 \nQ 40.234375 -1.421875 26.90625 -1.421875 \nQ 22.3125 -1.421875 17.546875 -0.640625 \nQ 12.796875 0.140625 7.71875 1.703125 \nL 7.71875 11.625 \nQ 12.109375 9.234375 16.796875 8.0625 \nQ 21.484375 6.890625 26.703125 6.890625 \nQ 35.15625 6.890625 40.078125 11.328125 \nQ 45.015625 15.765625 45.015625 23.390625 \nQ 45.015625 31 40.078125 35.4375 \nQ 35.15625 39.890625 26.703125 39.890625 \nQ 22.75 39.890625 18.8125 39.015625 \nQ 14.890625 38.140625 10.796875 36.28125 \nz\n\" id=\"DejaVuSans-53\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-8722\"/>\n       <use x=\"83.789062\" xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"147.412109\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"179.199219\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_2\">\n     <g id=\"line2d_2\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"85.623701\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_2\">\n      <!-- 0.0 -->\n      <g transform=\"translate(77.672139 239.238437)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_3\">\n     <g id=\"line2d_3\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"139.974351\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_3\">\n      <!-- 0.5 -->\n      <g transform=\"translate(132.022788 239.238437)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_4\">\n     <g id=\"line2d_4\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"194.325\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_4\">\n      <!-- 1.0 -->\n      <g transform=\"translate(186.373437 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 12.40625 8.296875 \nL 28.515625 8.296875 \nL 28.515625 63.921875 \nL 10.984375 60.40625 \nL 10.984375 69.390625 \nL 28.421875 72.90625 \nL 38.28125 72.90625 \nL 38.28125 8.296875 \nL 54.390625 8.296875 \nL 54.390625 0 \nL 12.40625 0 \nz\n\" id=\"DejaVuSans-49\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_5\">\n     <g id=\"line2d_5\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"248.675649\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_5\">\n      <!-- 1.5 -->\n      <g transform=\"translate(240.724087 239.238437)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_6\">\n     <g id=\"line2d_6\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"303.026299\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_6\">\n      <!-- 2.0 -->\n      <g transform=\"translate(295.074736 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 19.1875 8.296875 \nL 53.609375 8.296875 \nL 53.609375 0 \nL 7.328125 0 \nL 7.328125 8.296875 \nQ 12.9375 14.109375 22.625 23.890625 \nQ 32.328125 33.6875 34.8125 36.53125 \nQ 39.546875 41.84375 41.421875 45.53125 \nQ 43.3125 49.21875 43.3125 52.78125 \nQ 43.3125 58.59375 39.234375 62.25 \nQ 35.15625 65.921875 28.609375 65.921875 \nQ 23.96875 65.921875 18.8125 64.3125 \nQ 13.671875 62.703125 7.8125 59.421875 \nL 7.8125 69.390625 \nQ 13.765625 71.78125 18.9375 73 \nQ 24.125 74.21875 28.421875 74.21875 \nQ 39.75 74.21875 46.484375 68.546875 \nQ 53.21875 62.890625 53.21875 53.421875 \nQ 53.21875 48.921875 51.53125 44.890625 \nQ 49.859375 40.875 45.40625 35.40625 \nQ 44.1875 33.984375 37.640625 27.21875 \nQ 31.109375 20.453125 19.1875 8.296875 \nz\n\" id=\"DejaVuSans-50\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"xtick_7\">\n     <g id=\"line2d_7\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"357.376948\" xlink:href=\"#meb1de8e775\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_7\">\n      <!-- 2.5 -->\n      <g transform=\"translate(349.425386 239.238437)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-46\"/>\n       <use x=\"95.410156\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n   </g>\n   <g id=\"matplotlib.axis_2\">\n    <g id=\"ytick_1\">\n     <g id=\"line2d_8\">\n      <defs>\n       <path d=\"M 0 0 \nL -3.5 0 \n\" id=\"me5e8be5371\" style=\"stroke:#000000;stroke-width:0.8;\"/>\n      </defs>\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"224.64\"/>\n      </g>\n     </g>\n     <g id=\"text_8\">\n      <!-- 0 -->\n      <g transform=\"translate(13.5625 228.439219)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_2\">\n     <g id=\"line2d_9\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"198.754286\"/>\n      </g>\n     </g>\n     <g id=\"text_9\">\n      <!-- 5 -->\n      <g transform=\"translate(13.5625 202.553504)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_3\">\n     <g id=\"line2d_10\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"172.868571\"/>\n      </g>\n     </g>\n     <g id=\"text_10\">\n      <!-- 10 -->\n      <g transform=\"translate(7.2 176.66779)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_4\">\n     <g id=\"line2d_11\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"146.982857\"/>\n      </g>\n     </g>\n     <g id=\"text_11\">\n      <!-- 15 -->\n      <g transform=\"translate(7.2 150.782076)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-49\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_5\">\n     <g id=\"line2d_12\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"121.097143\"/>\n      </g>\n     </g>\n     <g id=\"text_12\">\n      <!-- 20 -->\n      <g transform=\"translate(7.2 124.896362)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_6\">\n     <g id=\"line2d_13\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"95.211429\"/>\n      </g>\n     </g>\n     <g id=\"text_13\">\n      <!-- 25 -->\n      <g transform=\"translate(7.2 99.010647)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-50\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_7\">\n     <g id=\"line2d_14\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"69.325714\"/>\n      </g>\n     </g>\n     <g id=\"text_14\">\n      <!-- 30 -->\n      <g transform=\"translate(7.2 73.124933)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 40.578125 39.3125 \nQ 47.65625 37.796875 51.625 33 \nQ 55.609375 28.21875 55.609375 21.1875 \nQ 55.609375 10.40625 48.1875 4.484375 \nQ 40.765625 -1.421875 27.09375 -1.421875 \nQ 22.515625 -1.421875 17.65625 -0.515625 \nQ 12.796875 0.390625 7.625 2.203125 \nL 7.625 11.71875 \nQ 11.71875 9.328125 16.59375 8.109375 \nQ 21.484375 6.890625 26.8125 6.890625 \nQ 36.078125 6.890625 40.9375 10.546875 \nQ 45.796875 14.203125 45.796875 21.1875 \nQ 45.796875 27.640625 41.28125 31.265625 \nQ 36.765625 34.90625 28.71875 34.90625 \nL 20.21875 34.90625 \nL 20.21875 43.015625 \nL 29.109375 43.015625 \nQ 36.375 43.015625 40.234375 45.921875 \nQ 44.09375 48.828125 44.09375 54.296875 \nQ 44.09375 59.90625 40.109375 62.90625 \nQ 36.140625 65.921875 28.71875 65.921875 \nQ 24.65625 65.921875 20.015625 65.03125 \nQ 15.375 64.15625 9.8125 62.3125 \nL 9.8125 71.09375 \nQ 15.4375 72.65625 20.34375 73.4375 \nQ 25.25 74.21875 29.59375 74.21875 \nQ 40.828125 74.21875 47.359375 69.109375 \nQ 53.90625 64.015625 53.90625 55.328125 \nQ 53.90625 49.265625 50.4375 45.09375 \nQ 46.96875 40.921875 40.578125 39.3125 \nz\n\" id=\"DejaVuSans-51\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-51\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_8\">\n     <g id=\"line2d_15\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"43.44\"/>\n      </g>\n     </g>\n     <g id=\"text_15\">\n      <!-- 35 -->\n      <g transform=\"translate(7.2 47.239219)scale(0.1 -0.1)\">\n       <use xlink:href=\"#DejaVuSans-51\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-53\"/>\n      </g>\n     </g>\n    </g>\n    <g id=\"ytick_9\">\n     <g id=\"line2d_16\">\n      <g>\n       <use style=\"stroke:#000000;stroke-width:0.8;\" x=\"26.925\" xlink:href=\"#me5e8be5371\" y=\"17.554286\"/>\n      </g>\n     </g>\n     <g id=\"text_16\">\n      <!-- 40 -->\n      <g transform=\"translate(7.2 21.353504)scale(0.1 -0.1)\">\n       <defs>\n        <path d=\"M 37.796875 64.3125 \nL 12.890625 25.390625 \nL 37.796875 25.390625 \nz\nM 35.203125 72.90625 \nL 47.609375 72.90625 \nL 47.609375 25.390625 \nL 58.015625 25.390625 \nL 58.015625 17.1875 \nL 47.609375 17.1875 \nL 47.609375 0 \nL 37.796875 0 \nL 37.796875 17.1875 \nL 4.890625 17.1875 \nL 4.890625 26.703125 \nz\n\" id=\"DejaVuSans-52\"/>\n       </defs>\n       <use xlink:href=\"#DejaVuSans-52\"/>\n       <use x=\"63.623047\" xlink:href=\"#DejaVuSans-48\"/>\n      </g>\n     </g>\n    </g>\n   </g>\n   <g id=\"patch_6\">\n    <path d=\"M 26.925 224.64 \nL 26.925 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_7\">\n    <path d=\"M 361.725 224.64 \nL 361.725 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_8\">\n    <path d=\"M 26.925 224.64 \nL 361.725 224.64 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n   <g id=\"patch_9\">\n    <path d=\"M 26.925 7.2 \nL 361.725 7.2 \n\" style=\"fill:none;stroke:#000000;stroke-linecap:square;stroke-linejoin:miter;stroke-width:0.8;\"/>\n   </g>\n  </g>\n </g>\n <defs>\n  <clipPath id=\"pbfc94f0ea9\">\n   <rect height=\"217.44\" width=\"334.8\" x=\"26.925\" y=\"7.2\"/>\n  </clipPath>\n </defs>\n</svg>\n",
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "n = 50\n",
    "weights = np.array([0.10, 0.10, 0.80]) # Nuevas distribuciones\n",
    "X_new, y_new = simulate_samples(n, X_test, y_test, weights)\n",
    "\n",
    "plot_distribution(y_new)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Efecto\n",
    "\n",
    "Veamos cual es el efecto en la performance del modelo al cambiar esta distribución:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "              precision    recall  f1-score   support\n",
      "\n",
      "           0       1.00      1.00      1.00         5\n",
      "           1       0.21      1.00      0.34         5\n",
      "           2       1.00      0.53      0.69        40\n",
      "\n",
      "    accuracy                           0.62        50\n",
      "   macro avg       0.74      0.84      0.68        50\n",
      "weighted avg       0.92      0.62      0.69        50\n",
      "\n",
      "F1: 0.6853024307518374\n"
     ]
    }
   ],
   "source": [
    "y_new_pred = model.predict(X_new)\n",
    "print(classification_report(y_new, y_new_pred))\n",
    "print(\"F1:\",f1_score(y_new, y_new_pred, average='weighted'))\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Podemos ver que ahora la performance del modelo a decaido. Recuerdemos que la puntuación F1 original era ~0,76. lo que significa que el rendimiento de nuestro modelo se ha deteriorado como consecuncia del cambio de la distribución. Incluso, no necesariamente la performance del modelo pudo haber cambiado."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Instalamos una libreria que tenga la métrica de PSI implementada:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "!git clone https://github.com/mwburke/population-stability-index\n",
    "!mv population-stability-index psi"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Distancia entre train y test: 0.1\n",
      "Distancia entre train y el nuevo set de datos: 0.32\n"
     ]
    }
   ],
   "source": [
    "from psi.psi import calculate_psi\n",
    "\n",
    "psi_train_test = calculate_psi(X_train.flatten(), X_test.flatten(), buckettype='quantiles', buckets=10, axis=1)\n",
    "psi_train_new = calculate_psi(X_train.flatten(), X_new.flatten(), buckettype='quantiles', buckets=10, axis=1)\n",
    "\n",
    "print('PSI entre train y test:', np.round(psi_train_test, 2))\n",
    "print('PSI entre train y el nuevo set de datos:', np.round(psi_train_new, 2))\n"
   ]
  }
 ],
 "metadata": {
  "interpreter": {
   "hash": "bea38c2984299ac640e8421861d34b2e05ee614f6236d2975c05eeb77366835f"
  },
  "kernelspec": {
   "display_name": "Python 3.8.5 64-bit ('base': conda)",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.5"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}