{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Пример использование подходов из sklift.models в sklearn.pipeline\n",
    "\n",
    "<br>\n",
    "<center>\n",
    "    <a href=\"https://colab.research.google.com/github/maks-sh/scikit-uplift/blob/master/notebooks/pipeline_usage_RU.ipynb\">\n",
    "        <img src=\"https://colab.research.google.com/assets/colab-badge.svg\">\n",
    "    </a>\n",
    "    <br>\n",
    "    <b><a href=\"https://github.com/maks-sh/scikit-uplift/\">SCIKIT-UPLIFT REPO</a> | </b>\n",
    "    <b><a href=\"https://scikit-uplift.readthedocs.io/en/latest/\">SCIKIT-UPLIFT DOCS</a> | </b>\n",
    "    <b><a href=\"https://scikit-uplift.readthedocs.io/en/latest/user_guide/index.html\">USER GUIDE</a></b>\n",
    "    <br>\n",
    "    <b><a href=\"https://nbviewer.jupyter.org/github/maks-sh/scikit-uplift/blob/master/notebooks/pipeline_usage_EN.ipynb\">ENGLISH VERSION</a></b>\n",
    "\n",
    "</center>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "В данном ноутбуке рассмотрим простой пример применения одного из подходов прогнозирования uplift  в [sklearn.pipeline](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.pipeline).\n",
    "\n",
    "Данные для примера взяты из [MineThatData E-Mail Analytics And Data Mining Challenge dataset by Kevin Hillstrom](https://blog.minethatdata.com/2008/03/minethatdata-e-mail-analytics-and-data.html). Этот набор данных содержит 64 000 клиентов, которые в последний раз совершали покупки в течение двенадцати месяцев. Среди клиентов была проведена рекламная кампания с помощью email рассылки:\n",
    "\n",
    "* 1/3 клиентов были выбраны случайным образом для получения электронного письма, рекламирующего мужскую продукцию;\n",
    "* 1/3 клиентов были выбраны случайным образом для получения электронного письма, рекламирующего женскую продукцию;\n",
    "* С оставшейся 1/3 коммуникацию не проводили.\n",
    "\n",
    "Для каждого клиента из выборки замерили факт перехода по ссылке в письме, факт совершения покупки и сумму трат за две недели, следущими после получения письма.\n",
    "\n",
    "Полное описание датасета можной найти по [ссылке](https://blog.minethatdata.com/2008/03/minethatdata-e-mail-analytics-and-data.html).\n",
    "\n",
    "Установим необходимые библиотеки:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:01:58.302718Z",
     "start_time": "2021-02-07T01:01:58.298524Z"
    }
   },
   "outputs": [],
   "source": [
    "# pip install scikit-uplift xgboost==1.0.2 category_encoders==2.1.0 -U"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Для простоты примера оставим только два сегмента пользователей:\n",
    "* тем, кому рассылалась по электронной почте рекламная кампания с участием женских товаров;\n",
    "* тем, кому не рассылалась рекламная кампания.\n",
    "\n",
    "В качестве целевой переменной будем использовать переменную `visit`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:01:59.884250Z",
     "start_time": "2021-02-07T01:01:58.315398Z"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Размер датасета до обработки: (64000, 8)\n",
      "Размер датасета после обработки: (42693, 8)\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>recency</th>\n",
       "      <th>history_segment</th>\n",
       "      <th>history</th>\n",
       "      <th>mens</th>\n",
       "      <th>womens</th>\n",
       "      <th>zip_code</th>\n",
       "      <th>newbie</th>\n",
       "      <th>channel</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10</td>\n",
       "      <td>2) $100 - $200</td>\n",
       "      <td>142.44</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Surburban</td>\n",
       "      <td>0</td>\n",
       "      <td>Phone</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>6</td>\n",
       "      <td>3) $200 - $350</td>\n",
       "      <td>329.08</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>Rural</td>\n",
       "      <td>1</td>\n",
       "      <td>Web</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>7</td>\n",
       "      <td>2) $100 - $200</td>\n",
       "      <td>180.65</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>Surburban</td>\n",
       "      <td>1</td>\n",
       "      <td>Web</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>1) $0 - $100</td>\n",
       "      <td>45.34</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Urban</td>\n",
       "      <td>0</td>\n",
       "      <td>Web</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>6</td>\n",
       "      <td>2) $100 - $200</td>\n",
       "      <td>134.83</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>Surburban</td>\n",
       "      <td>0</td>\n",
       "      <td>Phone</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   recency history_segment  history  mens  womens   zip_code  newbie channel\n",
       "0       10  2) $100 - $200   142.44     1       0  Surburban       0   Phone\n",
       "1        6  3) $200 - $350   329.08     1       1      Rural       1     Web\n",
       "2        7  2) $100 - $200   180.65     0       1  Surburban       1     Web\n",
       "4        2    1) $0 - $100    45.34     1       0      Urban       0     Web\n",
       "5        6  2) $100 - $200   134.83     0       1  Surburban       0   Phone"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "from sklift.datasets import fetch_hillstrom\n",
    "\n",
    "\n",
    "%matplotlib inline\n",
    "\n",
    "bunch = fetch_hillstrom(target_col='visit')\n",
    "\n",
    "dataset, target, treatment = bunch['data'], bunch['target'], bunch['treatment']\n",
    "\n",
    "print(f'Размер датасета до обработки: {dataset.shape}')\n",
    "\n",
    "# Selecting two segments\n",
    "dataset = dataset[treatment!='Mens E-Mail']\n",
    "target = target[treatment!='Mens E-Mail']\n",
    "treatment = treatment[treatment!='Mens E-Mail'].map({\n",
    "    'Womens E-Mail': 1,\n",
    "    'No E-Mail': 0\n",
    "})\n",
    "\n",
    "print(f'Размер датасета после обработки: {dataset.shape}')\n",
    "dataset.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Разобъем все данные на обучающую и валидационную выборку:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:01:59.976727Z",
     "start_time": "2021-02-07T01:01:59.889576Z"
    }
   },
   "outputs": [],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "\n",
    "\n",
    "X_tr, X_val, y_tr, y_val, treat_tr, treat_val = train_test_split(\n",
    "    dataset, target, treatment, test_size=0.5, random_state=42\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Select categorical features:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:02:00.003357Z",
     "start_time": "2021-02-07T01:01:59.983254Z"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['history_segment', 'zip_code', 'channel']\n"
     ]
    }
   ],
   "source": [
    "cat_cols = X_tr.select_dtypes(include='object').columns.tolist()\n",
    "print(cat_cols)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Создадим нужные объекты и объединим их в pipieline."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:02:00.079199Z",
     "start_time": "2021-02-07T01:02:00.009314Z"
    }
   },
   "outputs": [],
   "source": [
    "from sklearn.pipeline import Pipeline\n",
    "from category_encoders import CatBoostEncoder\n",
    "from sklift.models import ClassTransformation\n",
    "from xgboost import XGBClassifier\n",
    "\n",
    "\n",
    "encoder = CatBoostEncoder(cols=cat_cols)\n",
    "estimator = XGBClassifier(max_depth=2, random_state=42)\n",
    "ct = ClassTransformation(estimator=estimator)\n",
    "\n",
    "my_pipeline = Pipeline([\n",
    "    ('encoder', encoder),\n",
    "    ('model', ct)\n",
    "])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2020-04-26T18:02:52.236917Z",
     "start_time": "2020-04-26T18:02:52.110138Z"
    }
   },
   "source": [
    "<b>Обучать pipeline будем как обычно, но колонку treatment добавим как параметр шага model: `model__treatment`.</b>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:02:01.332880Z",
     "start_time": "2021-02-07T01:02:00.085047Z"
    }
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/Users/Maksim/Library/Python/3.6/lib/python/site-packages/sklearn/pipeline.py:354: UserWarning: It is recommended to use this approach on treatment balanced data. Current sample size is unbalanced.\n",
      "  self._final_estimator.fit(Xt, y, **fit_params)\n"
     ]
    }
   ],
   "source": [
    "my_pipeline = my_pipeline.fit(\n",
    "    X=X_tr,\n",
    "    y=y_tr,\n",
    "    model__treatment=treat_tr\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Предскажем uplift и посчитаем uplift@30%"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-02-07T01:02:01.476617Z",
     "start_time": "2021-02-07T01:02:01.335371Z"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "uplift@30%: 0.0661\n"
     ]
    }
   ],
   "source": [
    "from sklift.metrics import uplift_at_k\n",
    "\n",
    "\n",
    "uplift_predictions = my_pipeline.predict(X_val)\n",
    "\n",
    "uplift_30 = uplift_at_k(y_val, uplift_predictions, treat_val, strategy='overall')\n",
    "print(f'uplift@30%: {uplift_30:.4f}')"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.1"
  },
  "pycharm": {
   "stem_cell": {
    "cell_type": "raw",
    "source": [],
    "metadata": {
     "collapsed": false
    }
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}