{ "cells": [ { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "RxgD1bLv3QGc" }, "source": [ "# Обзор базовых подходов к решению задачи Uplift Моделирования\n", "\n", "
\n", "
\n", " \n", " \n", " \n", "
\n", " SCIKIT-UPLIFT REPO | \n", " SCIKIT-UPLIFT DOCS | \n", " USER GUIDE\n", "
\n", " ENGLISH VERSION\n", "
\n", " СТАТЬЯ НА HABR ЧАСТЬ 1 | \n", " СТАТЬЯ НА HABR ЧАСТЬ 2 | \n", " СТАТЬЯ НА HABR ЧАСТЬ 3\n", "\n", "
" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "45Q0Xrmq3QGu" }, "source": [ "## Содержание\n", "\n", "* [Введение](#Введение)\n", "* [1. Подходы с одной моделью](#1.-Подходы-с-одной-моделью)\n", " * [1.1 Одна модель](#1.1-Одна-модель-с-признаком-коммуникации)\n", " * [1.2 Трансформация классов](#1.2-Трансформация-классов)\n", "* [2. Подходы с двумя моделями](#2.-Подходы-с-двумя-моделями)\n", " * [2.1 Две независимые модели](#2.1-Две-независимые-модели)\n", " * [2.2 Две зависимые модели](#2.3-Две-зависимые-модели)\n", "* [Заключение](#Заключение)\n", "\n", "## Введение\n", "\n", "Прежде чем переходить к обсуждению uplift моделирования, представим некоторую ситуацию.\n", "\n", "К вам приходит заказчик с некоторой проблемой: необходимо с помощью sms рассылки прорекламировать достаточно популярный продукт.\n", "У вас как у самого настоящего, топового дата саентиста в голове уже вырисовался план:\n", "\n", "

\n", " \"Топовый\n", "

\n", "\n", "И тут вы начинаете понимать, что продукт и без того популярный, что без коммуникации продукт достаточно часто устанавливается клиентами, что обычная бинарная классификация обнаружит много таких клиентов, а стоимость коммуникация для нас критична...\n", "\n", "Исторически, по воздействию коммуникации маркетологи разделяют всех клиентов на 4 категории:\n", "\n", "

\n", " \"Категории\n", "

\n", "\n", "1. **`Не беспокоить`** - человек, который будет реагировать негативно, если с ним прокоммуницировать. Яркий пример: клиенты, которые забыли про платную подписку. Получив напоминание об этом, они обязательно ее отключат. Но если их не трогать, то клиенты по-прежнему будут приносить деньги. В терминах математики: $W_i = 1, Y_i = 0$ или $W_i = 0, Y_i = 1$.\n", "2. **`Потерянный`** - человек, который не совершит целевое действие независимо от коммуникаций. Взаимодействие с такими клиентами не приносит дополнительного дохода, но создает дополнительные затраты. В терминах математики: $W_i = 1, Y_i = 0$ или $W_i = 0, Y_i = 0$.\n", "3. **`Лояльный`** - человек, который будет реагировать положительно, несмотря ни на что - самый лояльный вид клиентов. По аналогии с предыдущим пунктом, такие клиенты также расходуют ресурсы. Однако в данном случае расходы гораздо больше, так как **лояльные** еще и пользуются маркетинговым предложением (скидками, купонами и другое). В терминах математики: $W_i = 1, Y_i = 1$ или $W_i = 0, Y_i = 1$.\n", "4. **`Убеждаемый`** - это человек, который положительно реагирует на предложение, но при его отсутствии не выполнил бы целевого действия. Это те люди, которых мы хотели бы определить нашей моделью, чтобы с ними прокоммуницировать. В терминах математики: $W_i = 0, Y_i = 0$ или $W_i = 1, Y_i = 1$.\n", "\n", "Стоит отметить, что в зависимости от клиентской базы и особенностей компании возможно отсутствие некоторых из этих типов клиентов.\n", "\n", "Таким образом, в данной задаче нам хочется не просто спрогнозировать вероятность выполнения целевого действия, а сосредоточить рекламный бюджет на клиентах, которые выполнят целевое действие только при нашем взаимодействии. Иначе говоря, для каждого клиента хочется отдельно оценить две условные вероятности:\n", "\n", "* Выполнение целевого действия при нашем воздействии на клиента. \n", " Таких клиентов будем относить к **тестовой группе (aka treatment)**: $P^T = P(Y=1 | W = 1)$,\n", "* Выполнение целевого действия без воздействия на клиента. \n", " Таких клиентов будем относить к **контрольной группе (aka control)**: $P^C = P(Y=1 | W = 0)$,\n", "\n", "где $Y$ - бинарный флаг выполнения целевого действия, $W$ - бинарный флаг наличия коммуникации (в англоязычной литературе - _treatment_)\n", "\n", "Сам же причинно-следственный эффект **называется uplift** и оценивается как разность двух этих вероятностей:\n", "\n", "$$ uplift = P^T - P^C = P(Y = 1 | W = 1) - P(Y = 1 | W = 0)$$\n", "\n", "Прогнозирование uplift - это задача причинно-следственного вывода. Дело в том, что нужно оценить разницу между двумя событиями, которые являются взаимоисключающими для конкретного клиента (либо мы взаимодействуем с человеком, либо нет; нельзя одновременно совершить два этих действия). Именно поэтому для построения моделей uplift предъявляются дополнительные требования к исходным данным.\n", "\n", "Для получения обучающей выборки для моделирования uplift необходимо провести эксперимент: \n", "1. Случайным образом разбить репрезентативную часть клиентской базы на тестовую и контрольную группу\n", "2. Прокоммуницировать с тестовой группой\n", "\n", "Данные, полученные в рамках дизайна такого пилота, позволят нам в дальнейшем построить модель прогнозирования uplift. Стоит также отметить, что эксперимент должен быть максимально похож на кампнию, которая будет запущена позже в более крупном масштабе. Единственным отличием эксперимента от кампании должен быть тот факт, что во время пилота для взаимодействия мы выбираем случайных клиентов, а во время кампании - на основе спрогнозированного значения Uplift. Если кампания, которая в конечном итоге запускается, существенно отличается от эксперимента, используемого для сбора данных о выполнении целевых действий клиентами, то построенная модель может быть менее надежной и точной.\n", "\n", "Итак, подходы к прогнозированию uplift направлены на оценку чистого эффекта от воздействия маркетинговых кампаний на клиентов.\n", "\n", "**Подробнее про uplift можно прочитать в [цикле статьй на хабре](https://habr.com/ru/company/ru_mts/blog/485980/).**\n", "\n", "Все классические подходы к моделированию uplift можно разделить на два класса:\n", "1. Подходы с применением одной моделью\n", "2. Подходы с применением двух моделей\n", "\n", "Скачаем [данные конкурса RetailHero.ai](https://ods.ai/competitions/x5-retailhero-uplift-modeling/data):" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "import sys\n", "\n", "# install uplift library scikit-uplift and other libraries \n", "!{sys.executable} -m pip install scikit-uplift catboost pandas" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "from sklearn.model_selection import train_test_split\n", "from sklift.datasets import fetch_x5\n", "import pandas as pd\n", "\n", "pd.set_option('display.max_columns', None)\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "dict_keys(['clients', 'train', 'purchases'])" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dataset = fetch_x5()\n", "dataset.data.keys()" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Dataset type: \n", "\n", "Dataset features shape: (400162, 5)\n", "Dataset features shape: (200039, 1)\n", "Dataset target shape: (200039,)\n", "Dataset treatment shape: (200039,)\n" ] } ], "source": [ "print(f\"Dataset type: {type(dataset)}\\n\")\n", "print(f\"Dataset features shape: {dataset.data['clients'].shape}\")\n", "print(f\"Dataset features shape: {dataset.data['train'].shape}\")\n", "print(f\"Dataset target shape: {dataset.target.shape}\")\n", "print(f\"Dataset treatment shape: {dataset.treatment.shape}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Описание датасета вы найдёте в документации. \n", "\n", "Импортируем нужные библиотеки и предобработаем данные:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:15.655683Z", "start_time": "2020-05-30T22:36:12.560096Z" }, "colab": {}, "colab_type": "code", "id": "VT5IYIZU3QGx" }, "outputs": [], "source": [ "# Извлечение данных\n", "df_clients = dataset.data['clients'].set_index(\"client_id\")\n", "df_train = pd.concat([dataset.data['train'], dataset.treatment , dataset.target], axis=1).set_index(\"client_id\")\n", "indices_test = pd.Index(set(df_clients.index) - set(df_train.index))\n", "\n", "# Извлечение признаков\n", "df_features = df_clients.copy()\n", "df_features['first_issue_time'] = \\\n", " (pd.to_datetime(df_features['first_issue_date'])\n", " - pd.Timestamp('1970-01-01')) // pd.Timedelta('1s')\n", "df_features['first_redeem_time'] = \\\n", " (pd.to_datetime(df_features['first_redeem_date'])\n", " - pd.Timestamp('1970-01-01')) // pd.Timedelta('1s')\n", "df_features['issue_redeem_delay'] = df_features['first_redeem_time'] \\\n", " - df_features['first_issue_time']\n", "df_features = df_features.drop(['first_issue_date', 'first_redeem_date'], axis=1)\n", "\n", "\n", "indices_learn, indices_valid = train_test_split(df_train.index, test_size=0.3, random_state=123)\n" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "qS78JgIO3QHP" }, "source": [ "Для удобства объявим некоторые переменные:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "X_train = df_features.loc[indices_learn, :]\n", "y_train = df_train.loc[indices_learn, 'target']\n", "treat_train = df_train.loc[indices_learn, 'treatment_flg']\n", "\n", "X_val = df_features.loc[indices_valid, :]\n", "y_val = df_train.loc[indices_valid, 'target']\n", "treat_val = df_train.loc[indices_valid, 'treatment_flg']\n", "\n", "X_train_full = df_features.loc[df_train.index, :]\n", "y_train_full = df_train.loc[:, 'target']\n", "treat_train_full = df_train.loc[:, 'treatment_flg']\n", "\n", "X_test = df_features.loc[indices_test, :]\n", "\n", "cat_features = ['gender']\n", "\n", "models_results = {\n", " 'approach': [],\n", " 'uplift@30%': []\n", "}" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "ZUBv8tHI3QHu" }, "source": [ "## 1. Подходы с одной моделью\n", "\n", "### 1.1 Одна модель с признаком коммуникации\n", "\n", "Самое простое и интуитивное решение: модель обучается одновременно на двух группах, при этом бинарный флаг коммуникации выступает в качестве дополнительного признака. Каждый объект из тестовой выборки скорим дважды: с флагом коммуникации равным 1 и равным 0. Вычитая вероятности по каждому наблюдению, получим искомы uplift.\n", "\n", "\n", "

\n", " \"Solo\n", "

" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:18.730254Z", "start_time": "2020-05-30T22:36:16.771531Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 359 }, "colab_type": "code", "id": "Pqquz4nU3QHx", "outputId": "fadb441f-902f-4523-9c18-79b77f08693e" }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Инструкция по установке пакета: https://github.com/maks-sh/scikit-uplift\n", "# Ссылка на документацию: https://scikit-uplift.readthedocs.io/en/latest/\n", "from sklift.metrics import uplift_at_k\n", "from sklift.viz import plot_uplift_preds\n", "from sklift.models import SoloModel\n", "\n", "# sklift поддерживает любые модели, \n", "# которые удовлетворяют соглашениями scikit-learn\n", "# Для примера воспользуемся catboost\n", "from catboost import CatBoostClassifier\n", "\n", "\n", "sm = SoloModel(CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True))\n", "sm = sm.fit(X_train, y_train, treat_train, estimator_fit_params={'cat_features': cat_features})\n", "\n", "uplift_sm = sm.predict(X_val)\n", "\n", "sm_score = uplift_at_k(y_true=y_val, uplift=uplift_sm, treatment=treat_val, strategy='by_group', k=0.3)\n", "\n", "models_results['approach'].append('SoloModel')\n", "models_results['uplift@30%'].append(sm_score)\n", "\n", "# Получим условные вероятности выполнения целевого действия при взаимодействии для каждого объекта\n", "sm_trmnt_preds = sm.trmnt_preds_\n", "# И условные вероятности выполнения целевого действия без взаимодействия для каждого объекта\n", "sm_ctrl_preds = sm.ctrl_preds_\n", "\n", "# Отрисуем распределения вероятностей и их разность (uplift)\n", "plot_uplift_preds(trmnt_preds=sm_trmnt_preds, ctrl_preds=sm_ctrl_preds);" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:18.753634Z", "start_time": "2020-05-30T22:36:18.733047Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 235 }, "colab_type": "code", "id": "bWlvkkcz3QIQ", "outputId": "7703680e-f880-4dbf-b7ee-230b6a182d02" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
feature_namefeature_score
0first_redeem_time65.214393
1issue_redeem_delay12.564364
2age7.891613
3first_issue_time7.262806
4treatment4.362077
5gender2.704747
\n", "
" ], "text/plain": [ " feature_name feature_score\n", "0 first_redeem_time 65.214393\n", "1 issue_redeem_delay 12.564364\n", "2 age 7.891613\n", "3 first_issue_time 7.262806\n", "4 treatment 4.362077\n", "5 gender 2.704747" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# С той же легкостью можно обратиться к обученной модели.\n", "# Например, чтобы построить важность признаков:\n", "sm_fi = pd.DataFrame({\n", " 'feature_name': sm.estimator.feature_names_,\n", " 'feature_score': sm.estimator.feature_importances_\n", "}).sort_values('feature_score', ascending=False).reset_index(drop=True)\n", "\n", "sm_fi" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "2xqD6sLP3QIq" }, "source": [ "### 1.2 Трансформация классов\n", "\n", "Достаточно интересный и математически подтвержденный подход к построению модели, представленный еще в 2012 году. Метод заключается в прогнозировании немного измененного таргета:\n", "\n", "$$\n", "Z_i = Y_i \\cdot W_i + (1 - Y_i) \\cdot (1 - W_i),\n", "$$\n", "где \n", "\n", "* $Z_i$ - новая целевая переменная $i$-ого клиента; \n", "* $Y_i$ - целевая перемнная $i$-ого клиента;\n", "* $W_i$ - флаг коммуникации $i$-ого клиента; \n", "\n", "\n", "Другими словами, новый класс равен 1, если мы знаем, что на конкретном наблюдении, результат при взаимодействии был бы таким же хорошим, как и в контрольной группе, если бы мы могли знать результат в обеих группах:\n", "\n", "$$\n", "Z_i = \\begin{cases}\n", " 1, & \\mbox{if } W_i = 1 \\mbox{ and } Y_i = 1 \\\\\n", " 1, & \\mbox{if } W_i = 0 \\mbox{ and } Y_i = 0 \\\\\n", " 0, & \\mbox{otherwise}\n", " \\end{cases}\n", "$$\n", "\n", "Распишем подробнее, чему равна вероятность новой целевой переменной:\n", "\n", "$$ \n", "P(Z=1|X = x) = \\\\\n", "= P(Z=1|X = x, W = 1) \\cdot P(W = 1|X = x) + \\\\\n", "+ P(Z=1|X = x, W = 0) \\cdot P(W = 0|X = x) = \\\\\n", "= P(Y=1|X = x, W = 1) \\cdot P(W = 1|X = x) + \\\\\n", "+ P(Y=0|X = x, W = 0) \\cdot P(W = 0|X = x).\n", "$$\n", "\n", "Выше мы обсуждали, что обучающая выборка для моделирования uplift собирается на основе рандомизированного разбиения части клиенской базы на тестовую и контрольную группы. Поэтому коммуникация $ W $ не может зависить от признаков клиента $ X_1, ..., X_m $. Принимая это, мы имеем: $ P(W | X_1, ..., X_m, ) = P(W) $ и \n", "\n", "$$\n", "P(Z=1|X = x) = \\\\\n", "= P^T(Y=1|X = x) \\cdot P(W = 1) + \\\\\n", "+ P^C(Y=0|X = x) \\cdot P(W = 0)\n", "$$\n", "\n", "Также допустим, что $P(W = 1) = P(W = 0) = \\frac{1}{2}$, т.е. во время эксперимента контрольные и тестовые группы были разделены в равных пропорциях. Тогда получим следующее:\n", "\n", "$$\n", "P(Z=1|X = x) = \\\\\n", "= P^T(Y=1|X = x) \\cdot \\frac{1}{2} + P^C(Y=0|X = x) \\cdot \\frac{1}{2} \\Rightarrow \\\\\n", "2 \\cdot P(Z=1|X = x) = \\\\\n", "= P^T(Y=1|X = x) + P^C(Y=0|X = x) = \\\\\n", "= P^T(Y=1|X = x) + 1 - P^C(Y=1|X = x) \\Rightarrow \\\\\n", "\\Rightarrow P^T(Y=1|X = x) - P^C(Y=1|X = x) = \\\\\n", " = uplift = 2 \\cdot P(Z=1|X = x) - 1\n", "$$\n", "\n", "Таким образом, увеличив вдвое прогноз нового таргета и вычтя из него единицу мы получим значение самого uplift'a, т.е.\n", "\n", "$$\n", "uplift = 2 \\cdot P(Z=1) - 1\n", "$$\n", "\n", "Исходя из допущения описанного выше: $P(W = 1) = P(W = 0) = \\frac{1}{2}$, данный подход следует использовать только в случаях, когда количество клиентов, с которыми мы прокоммуницировлаи, равно количеству клиентов, с которыми коммуникации не было. " ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:19.851314Z", "start_time": "2020-05-30T22:36:18.757023Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 71 }, "colab_type": "code", "id": "V6yPXbJs3QIu", "outputId": "3d8e6c74-f98d-459b-93cd-e1bfd00d1ad9" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/var/folders/zj/l29x8njj1yncqvpwgkycthvw0000gp/T/ipykernel_74140/2974985256.py:5: UserWarning: It is recommended to use this approach on treatment balanced data. Current sample size is unbalanced.\n", " ct = ct.fit(X_train, y_train, treat_train, estimator_fit_params={'cat_features': cat_features})\n" ] } ], "source": [ "from sklift.models import ClassTransformation\n", "\n", "\n", "ct = ClassTransformation(CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True))\n", "ct = ct.fit(X_train, y_train, treat_train, estimator_fit_params={'cat_features': cat_features})\n", "\n", "uplift_ct = ct.predict(X_val)\n", "\n", "ct_score = uplift_at_k(y_true=y_val, uplift=uplift_ct, treatment=treat_val, strategy='by_group', k=0.3)\n", "\n", "models_results['approach'].append('ClassTransformation')\n", "models_results['uplift@30%'].append(ct_score)" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "sAACdNv13QI_" }, "source": [ "## 2. Подходы с двумя моделями\n", "\n", "Подход с двумя моделями можно встретить почти в любой работе по uplift моделированию, он часто используется в качестве бейзлайна. Однако использование двух моделей может привести к некоторым неприятным последствиям: если для обучения будут использоваться принципиально разные модели или природа данных тестовой и контрольной групп будут сильно отличаться, то возвращаемые моделями скоры будут не сопоставимы между собой. Вследствие чего расчет uplift будет не совсем корректным. Для избежания такого эффекта необходимо калибровать модели, чтобы их скоры можно было интерпертировать как вероятности. Калибровка вероятностей модели отлично описана в [документации scikit-learn](https://scikit-learn.org/stable/modules/calibration.html).\n", "\n", "### 2.1 Две независимые модели\n", "\n", "Как понятно из названия, подход заключается в моделировании условных вероятностей тестовой и контрольной групп отдельно. В статьях утверждается, что такой подход достаточно слабый, так как обе модели фокусируются на прогнозировании результата отдельно и поэтому могут пропустить \"более слабые\" различия в выборках.\n", "\n", "

\n", " \"Two\n", "

" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:21.644377Z", "start_time": "2020-05-30T22:36:19.854107Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 359 }, "colab_type": "code", "id": "S9mOrhPg3QJC", "outputId": "e1a8b38f-65f1-429d-da70-cc663e788324" }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklift.models import TwoModels\n", "\n", "\n", "tm = TwoModels(\n", " estimator_trmnt=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " estimator_ctrl=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " method='vanilla'\n", ")\n", "tm = tm.fit(\n", " X_train, y_train, treat_train,\n", " estimator_trmnt_fit_params={'cat_features': cat_features}, \n", " estimator_ctrl_fit_params={'cat_features': cat_features}\n", ")\n", "\n", "uplift_tm = tm.predict(X_val)\n", "\n", "tm_score = uplift_at_k(y_true=y_val, uplift=uplift_tm, treatment=treat_val, strategy='by_group', k=0.3)\n", "\n", "models_results['approach'].append('TwoModels')\n", "models_results['uplift@30%'].append(tm_score)\n", "\n", "plot_uplift_preds(trmnt_preds=tm.trmnt_preds_, ctrl_preds=tm.ctrl_preds_);" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "BVdXAMsO3QLM" }, "source": [ "### 2.2 Две зависимые модели\n", "\n", "Подход зависимого представления данных основан на методе цепочек классификаторов, первоначально разработанном для задач многоклассовой классификации. Идея состоит в том, что при наличии $L$ различных меток можно построить $L$ различных классификаторов, каждый из которых решает задачу бинарной классификации и в процессе обучения каждый следующий классификатор использует предсказания предыдущих в качестве дополнительных признаков. Авторы данного метода предложили использовать ту же идею для решения проблемы uplift моделирования в два этапа. В начале мы обучаем классификатор по контрольным данным: \n", "$$\n", "P^C = P(Y=1| X, W = 0),\n", "$$\n", "затем исполним предсказания $P_C$ в качестве нового признака для обучения второго классификатора на тестовых данных, тем самым эффективно вводя зависимость между двумя наборами данных:\n", "\n", "$$\n", "P^T = P(Y=1| X, P_C(X), W = 1)\n", "$$\n", "\n", "Чтобы получить uplift для каждого наблюдения, вычислим разницу:\n", "\n", "$$\n", "uplift(x_i) = P^T(x_i, P_C(x_i)) - P^C(x_i)\n", "$$\n", "\n", "Интуитивно второй классификатор изучает разницу между ожидаемым результатом в тесте и контроле, т.е. сам uplift.\n", "\n", "

\n", " \"Two\n", "

" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:24.308273Z", "start_time": "2020-05-30T22:36:21.647973Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 359 }, "colab_type": "code", "id": "C654kkas3QLR", "outputId": "c81b0679-ecd4-44cb-e564-d81ec16a6de8" }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "tm_ctrl = TwoModels(\n", " estimator_trmnt=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " estimator_ctrl=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " method='ddr_control'\n", ")\n", "tm_ctrl = tm_ctrl.fit(\n", " X_train, y_train, treat_train,\n", " estimator_trmnt_fit_params={'cat_features': cat_features}, \n", " estimator_ctrl_fit_params={'cat_features': cat_features}\n", ")\n", "\n", "uplift_tm_ctrl = tm_ctrl.predict(X_val)\n", "\n", "tm_ctrl_score = uplift_at_k(y_true=y_val, uplift=uplift_tm_ctrl, treatment=treat_val, strategy='by_group', k=0.3)\n", "\n", "models_results['approach'].append('TwoModels_ddr_control')\n", "models_results['uplift@30%'].append(tm_ctrl_score)\n", "\n", "plot_uplift_preds(trmnt_preds=tm_ctrl.trmnt_preds_, ctrl_preds=tm_ctrl.ctrl_preds_);" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "Kcy2kN3T3QLg" }, "source": [ "Аналогичным образом можно сначала обучить классификатор $P^T$, а затем использовать его предсказания в качестве признака для классификатора $P^C$." ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:26.302525Z", "start_time": "2020-05-30T22:36:24.311349Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 359 }, "colab_type": "code", "id": "z9Db6zMB3QLn", "outputId": "fae5f3cd-5ed8-42fe-e5ec-d39190705a20" }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "tm_trmnt = TwoModels(\n", " estimator_trmnt=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " estimator_ctrl=CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True), \n", " method='ddr_treatment'\n", ")\n", "tm_trmnt = tm_trmnt.fit(\n", " X_train, y_train, treat_train,\n", " estimator_trmnt_fit_params={'cat_features': cat_features}, \n", " estimator_ctrl_fit_params={'cat_features': cat_features}\n", ")\n", "\n", "uplift_tm_trmnt = tm_trmnt.predict(X_val)\n", "\n", "tm_trmnt_score = uplift_at_k(y_true=y_val, uplift=uplift_tm_trmnt, treatment=treat_val, strategy='by_group', k=0.3)\n", "\n", "models_results['approach'].append('TwoModels_ddr_treatment')\n", "models_results['uplift@30%'].append(tm_trmnt_score)\n", "\n", "plot_uplift_preds(trmnt_preds=tm_trmnt.trmnt_preds_, ctrl_preds=tm_trmnt.ctrl_preds_);" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "ohv6eLRJ3QMh" }, "source": [ "## Заключение\n", "\n", "Рассмотрим, какой метод лучше всего показал себя в этой задаче, и проскорим им тестовую выборку:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:26.323056Z", "start_time": "2020-05-30T22:36:26.305696Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 204 }, "colab_type": "code", "id": "X_u-k5i93QMp", "outputId": "0677e739-722a-429a-8021-7e287e84f4a4" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
approachuplift@30%
1ClassTransformation0.061775
2TwoModels0.051637
3TwoModels_ddr_control0.047793
0SoloModel0.041614
4TwoModels_ddr_treatment0.033752
\n", "
" ], "text/plain": [ " approach uplift@30%\n", "1 ClassTransformation 0.061775\n", "2 TwoModels 0.051637\n", "3 TwoModels_ddr_control 0.047793\n", "0 SoloModel 0.041614\n", "4 TwoModels_ddr_treatment 0.033752" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.DataFrame(data=models_results).sort_values('uplift@30%', ascending=False)" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "-RWfGK_v3QNB" }, "source": [ "Из таблички выше можно понять, что в текущей задаче лучше всего справился подход трансформации целевой перемнной. Обучим модель на всей выборке и предскажем на тест." ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:28.800445Z", "start_time": "2020-05-30T22:36:26.326392Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 156 }, "colab_type": "code", "id": "xBtueUVW3QND", "outputId": "0cd8283c-f44a-4513-8876-010ce2c3af16" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/var/folders/zj/l29x8njj1yncqvpwgkycthvw0000gp/T/ipykernel_74140/678512574.py:2: UserWarning: It is recommended to use this approach on treatment balanced data. Current sample size is unbalanced.\n", " ct_full = ct_full.fit(\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ ",uplift\r\n", "9be3405b46,0.02048466524618986\r\n", "7b6e96d6ea,0.0635228309768705\r\n", "ac907571fb,0.09355070863670556\r\n", "8a3acb5058,0.03462049515418464\r\n" ] } ], "source": [ "ct_full = ClassTransformation(CatBoostClassifier(iterations=20, thread_count=2, random_state=42, silent=True))\n", "ct_full = ct_full.fit(\n", " X_train_full, \n", " y_train_full, \n", " treat_train_full, \n", " estimator_fit_params={'cat_features': cat_features}\n", ")\n", "\n", "X_test.loc[:, 'uplift'] = ct_full.predict(X_test.values)\n", "\n", "sub = X_test[['uplift']].to_csv('sub1.csv')\n", "\n", "!head -n 5 sub1.csv" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "ExecuteTime": { "end_time": "2020-05-30T22:36:28.841358Z", "start_time": "2020-05-30T22:36:28.803900Z" }, "colab": { "base_uri": "https://localhost:8080/", "height": 204 }, "colab_type": "code", "id": "pyTbXyy03QNd", "outputId": "cbf6898f-4a23-465b-de1d-4434b7ee26c6" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
feature_namefeature_score
0first_redeem_time86.662273
1age5.582358
2issue_redeem_delay3.467160
3first_issue_time2.755578
4gender1.532631
\n", "
" ], "text/plain": [ " feature_name feature_score\n", "0 first_redeem_time 86.662273\n", "1 age 5.582358\n", "2 issue_redeem_delay 3.467160\n", "3 first_issue_time 2.755578\n", "4 gender 1.532631" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "ct_full_fi = pd.DataFrame({\n", " 'feature_name': ct_full.estimator.feature_names_,\n", " 'feature_score': ct_full.estimator.feature_importances_\n", "}).sort_values('feature_score', ascending=False).reset_index(drop=True)\n", "\n", "ct_full_fi" ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "bPBY5dUL3QQp" }, "source": [ "Итак, мы познакомились с uplift моделированием и рассмотрели основные классические подходы его построения. Что дальше? Дальше можно с головй окунуться в разведывательный анализ данных, генерацию новых признаков, подбор моделей и их гиперпарметров, а также изучение новых подходов и библиотек.\n", "\n", "**Спасибо, что дочитали до конца.**\n", "\n", "**Мне будет приятно, если вы поддержите проект звездочкой на [гитхабе](https://github.com/maks-sh/scikit-uplift/) или расскажете о нем своим друзьям.**" ] } ], "metadata": { "colab": { "collapsed_sections": [], "name": "RetailHero.ipynb", "provenance": [], "toc_visible": true }, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.6" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": true, "skip_h1_title": false, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": false, "toc_position": {}, "toc_section_display": true, "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 1 }