{ "cells": [ { "cell_type": "markdown", "id": "9074d943", "metadata": {}, "source": [ "
\n", " \n", "\n", "# Андан на экономе: домашнее задание 2\n", "
" ] }, { "cell_type": "markdown", "id": "b4981e33", "metadata": {}, "source": [ "**ФИО:**\n", "\n", "**id из контеста:**\n", "\n", "**Внимание, конкурс!** \n", "\n", "Напиши свой любимый анекдот. Аcсисты и семенаристы устроют голосование. Лучшая тройка получит по бонусному баллу.\n", "\n", "**Место для аника:**" ] }, { "cell_type": "markdown", "id": "f40dc119", "metadata": {}, "source": [ "## Общая информация\n", "\n", "\n", "__Дата выдачи:__ 06.03.2023\n", "\n", "__Мягкий дедлайн:__ 23:59MSK 02.04.2022\n", "\n", "__Жесткий дедлайн:__ 23:59MSK 09.04.2022" ] }, { "cell_type": "markdown", "id": "3e8ede2d", "metadata": {}, "source": [ "## Оценивание и штрафы\n", "\n", "Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 100 баллов. За каждый день просрочки после мягкого дедлайна снимается 10 баллов. После жёсткого дедлайна работы не принимаются. Даже при опозданиии на одну секунду. Сдавайте работы заранее.\n", "\n", "Мягкий дедлайн можно отодвинуть без потери баллов на 1,2 или 3 дня. Суммарно для откладывания в запасе есть три дня. Можно отодвинуть один дедлайн на три дня, а можно три дедлайна подвинуть на один день. Распоряжаться этими днями студент может как угодно. Жёсткий дедлайн, при этом, не меняется. Если такое произошло, нужно сообщить о сдвиге при сдаче работы.\n", "\n", "Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).\n", "\n", "Любой из студентов может быть вызван на защиту любого домашнего задания. В таком случае итоговая оценка студента определяется в результате защиты.\n", "\n", "> За отсутствие названий графиков и подписей к осям могут снижаться баллы. Все картинки должны быть самодостаточны и визуально удобны для восприятия, так чтобы не нужно было смотреть ваш код или знать задание, чтобы понять что на них изображено. Выводы должны быть релевантными. Не забывайте их писать. Если в вопросе требуется ответ словами, а его нет, вы будете терять довольно много баллов." ] }, { "cell_type": "markdown", "id": "58abed2e", "metadata": {}, "source": [ "## Формат сдачи\n", "\n", "Сам ноутбук называйте в формате hw-02-NUM-USERNAME.ipynb, где NUM — номер из вашего логина, а USERNAME — ваши фамилия и имя. Файл сдаётся в anytask." ] }, { "cell_type": "markdown", "id": "67588650", "metadata": {}, "source": [ "Если хотите, можете разбить тетрадку на несколько разных для своего удобства." ] }, { "cell_type": "code", "execution_count": 1, "id": "217006f4", "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "\n", "import scipy.stats as sts\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "\n", "### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════ bzzzzzzzzzz\n", "# will the code be with you" ] }, { "cell_type": "markdown", "id": "8633ccb3", "metadata": {}, "source": [ "# Часть 1: рисковая \n", "\n", "В этом задании мы немного поработаем с ценами на акции. За задание можно получить $50$ баллов.\n", "\n", "В табличке `prices.tsv` лежат данные о том, как менялась цена на акции из индексов [S&P-500](https://ru.wikipedia.org/wiki/S%26P_500), [NASDAQ-100](https://ru.wikipedia.org/wiki/Nasdaq-100) и [DJI](https://ru.wikipedia.org/wiki/Промышленный_индекс_Доу_—_Джонса) в течение последних $10$ лет. В табличке `information.tsv` лежит дополнительная полезная информация по ценным бумагам. Подгрузим эти таблицы и посмотрим на них. " ] }, { "cell_type": "code", "execution_count": 2, "id": "681f64c7", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(2518, 521)\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
DateAAALAAPAAPLABBVABCABNBABTACGL...XOMXRAYXYLYUMZBHZBRAZIONZMZSZTS
02013-03-05 00:00:0027.94621513.24551871.64067813.29883924.97210941.335518NaN28.67844816.563334...58.59657739.02300324.91420439.37609567.82609644.86999920.423979NaNNaN31.940346
12013-03-06 00:00:0028.32616013.73574170.92382013.12980525.12522941.515339NaN28.34757616.583332...58.56390839.28310025.69359839.73838467.34309444.79000120.907482NaNNaN31.530493
22013-03-07 00:00:0028.33271613.97142870.96104413.28156624.95879641.172813NaN28.47991816.813334...58.00808739.51533524.87041739.94030866.98530644.61999921.057535NaNNaN32.191845
32013-03-08 00:00:0028.18859714.06570171.53828413.31673124.85892341.515339NaN28.68672916.879999...58.17808539.70111524.89669640.21944067.44146745.04000121.090885NaNNaN31.754053
42013-03-11 00:00:0028.04448314.26368072.18069513.50642825.07861941.575287NaN28.89351716.940001...58.30234139.81257225.18568440.29070767.74561345.47000121.365984NaNNaN31.837889
\n", "

5 rows × 521 columns

\n", "
" ], "text/plain": [ " Date A AAL AAP AAPL ABBV \\\n", "0 2013-03-05 00:00:00 27.946215 13.245518 71.640678 13.298839 24.972109 \n", "1 2013-03-06 00:00:00 28.326160 13.735741 70.923820 13.129805 25.125229 \n", "2 2013-03-07 00:00:00 28.332716 13.971428 70.961044 13.281566 24.958796 \n", "3 2013-03-08 00:00:00 28.188597 14.065701 71.538284 13.316731 24.858923 \n", "4 2013-03-11 00:00:00 28.044483 14.263680 72.180695 13.506428 25.078619 \n", "\n", " ABC ABNB ABT ACGL ... XOM XRAY \\\n", "0 41.335518 NaN 28.678448 16.563334 ... 58.596577 39.023003 \n", "1 41.515339 NaN 28.347576 16.583332 ... 58.563908 39.283100 \n", "2 41.172813 NaN 28.479918 16.813334 ... 58.008087 39.515335 \n", "3 41.515339 NaN 28.686729 16.879999 ... 58.178085 39.701115 \n", "4 41.575287 NaN 28.893517 16.940001 ... 58.302341 39.812572 \n", "\n", " XYL YUM ZBH ZBRA ZION ZM ZS ZTS \n", "0 24.914204 39.376095 67.826096 44.869999 20.423979 NaN NaN 31.940346 \n", "1 25.693598 39.738384 67.343094 44.790001 20.907482 NaN NaN 31.530493 \n", "2 24.870417 39.940308 66.985306 44.619999 21.057535 NaN NaN 32.191845 \n", "3 24.896696 40.219440 67.441467 45.040001 21.090885 NaN NaN 31.754053 \n", "4 25.185684 40.290707 67.745613 45.470001 21.365984 NaN NaN 31.837889 \n", "\n", "[5 rows x 521 columns]" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df_prices = pd.read_csv('data/price.tsv', sep='\\t')\n", "df_prices = df_prices.drop('GEHC', axis=1) # сликом молодая компания\n", "print(df_prices.shape)\n", "df_prices.head()" ] }, { "cell_type": "code", "execution_count": 3, "id": "9dee54df", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(525, 12)\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
SymbolSecuritySEC filingsGICS SectorGICS Sub IndustryHeadquarters LocationDate first addedCIKFoundedS&P-500NASDAQDJI
0AAgilent Technologies IncreportsHealth CareHealth Care EquipmentSanta Clara, California05.06.001090872.01999.0TrueFalseFalse
1AALAmerican Airlines GroupreportsIndustrialsAirlinesFort Worth, Texas23.03.156201.01934.0TrueFalseFalse
2AAPAdvance Auto PartsreportsConsumer DiscretionaryAutomotive RetailRaleigh, North Carolina09.07.151158449.01932.0TrueFalseFalse
3AAPLApple Inc.reportsInformation TechnologyTechnology Hardware, Storage & PeripheralsCupertino, California30.11.82320193.01977.0TrueTrueTrue
4ABBVAbbVie Inc.reportsHealth CarePharmaceuticalsNorth Chicago, Illinois31.12.121551152.01888.0TrueFalseFalse
\n", "
" ], "text/plain": [ " Symbol Security SEC filings GICS Sector \\\n", "0 A Agilent Technologies Inc reports Health Care \n", "1 AAL American Airlines Group reports Industrials \n", "2 AAP Advance Auto Parts reports Consumer Discretionary \n", "3 AAPL Apple Inc. reports Information Technology \n", "4 ABBV AbbVie Inc. reports Health Care \n", "\n", " GICS Sub Industry Headquarters Location \\\n", "0 Health Care Equipment Santa Clara, California \n", "1 Airlines Fort Worth, Texas \n", "2 Automotive Retail Raleigh, North Carolina \n", "3 Technology Hardware, Storage & Peripherals Cupertino, California \n", "4 Pharmaceuticals North Chicago, Illinois \n", "\n", " Date first added CIK Founded S&P-500 NASDAQ DJI \n", "0 05.06.00 1090872.0 1999.0 True False False \n", "1 23.03.15 6201.0 1934.0 True False False \n", "2 09.07.15 1158449.0 1932.0 True False False \n", "3 30.11.82 320193.0 1977.0 True True True \n", "4 31.12.12 1551152.0 1888.0 True False False " ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df_inf = pd.read_csv('data/information.tsv', sep='\\t')\n", "print(df_inf.shape)\n", "df_inf.head()" ] }, { "cell_type": "markdown", "id": "1c9df382", "metadata": {}, "source": [ "## 1.1 Разогреваемся\n", "\n", "__а) [0 баллов]__ В колонке `Date` лежит день, когда торговалась бумага. Сейчас у неё тип `string`. Превратите её в `datetime` и сделайте индексом таблицы." ] }, { "cell_type": "code", "execution_count": null, "id": "44c5e995", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (♡-_-♡) " ] }, { "cell_type": "markdown", "id": "306cf4ef", "metadata": {}, "source": [ "__б) [5 баллов]__ В колонках `'S&P-500', 'NASDAQ', 'DJI'` лежит True, если ценная бумага входит в соотвествующий индекс. Сколько ценных бумаг из таблицы входили в индекс NASDAQ? " ] }, { "cell_type": "code", "execution_count": null, "id": "cf3f7df1", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ヽ(♡‿♡)ノ" ] }, { "cell_type": "markdown", "id": "fc68686e", "metadata": {}, "source": [ "Сколько ценных бумаг входят во все три индекса сразу?" ] }, { "cell_type": "code", "execution_count": null, "id": "64f10e94", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (´。• ᵕ •。`) " ] }, { "cell_type": "markdown", "id": "105505b2", "metadata": {}, "source": [ "В колонке `Founded` записан год основания компании. Сколько компаний из индекса S&P-500 были основаны в 19 веке (1900 год относится к 20 веку)? " ] }, { "cell_type": "code", "execution_count": null, "id": "a7906564", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (◕‿◕)♡" ] }, { "cell_type": "markdown", "id": "eddcf9e5", "metadata": {}, "source": [ "В колонке `GICS Sector` находится сектор экономики, в котором работает компания. Сколько всего уникальных секторов представлено в данных?" ] }, { "cell_type": "code", "execution_count": null, "id": "0faf612f", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (♡゚▽゚♡) " ] }, { "cell_type": "markdown", "id": "312b8df5", "metadata": {}, "source": [ "Таблица с информацией устаревшая. Есть тикеры, которые попали в таблицу с ценами, но не попали в таблицу с информацией. Сколько таких тикеров? " ] }, { "cell_type": "code", "execution_count": null, "id": "1fa5d64f", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ♡ (´。• ω •。`) ♡" ] }, { "cell_type": "markdown", "id": "23df37bf", "metadata": {}, "source": [ "__в) [5 баллов]__ Сколько компаний из индекса S&P-500 в сумме приходится на $3$ самых крупных сектора?" ] }, { "cell_type": "code", "execution_count": null, "id": "a7ed06d1", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (⌒_⌒;)" ] }, { "cell_type": "markdown", "id": "5a1cb335", "metadata": {}, "source": [ "__г) [5 баллов]__ Теперь поработаем со стоимостью акций. \n", "\n", "Выберите 5 случайных тикеров и постройте для них картинки с динамикой цен и гистограммы. Дайте ответы на вопросы:\n", "\n", "- Распределение стоимости акций похоже на нормальное?\n", "- Что происходило с финансовыми рынками в течение последних $10$ лет? Они росли? Они падали? Видно ли, что были кризисы? \n", "\n", "__Ответ:__" ] }, { "cell_type": "code", "execution_count": null, "id": "7325420c", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (@_@)" ] }, { "cell_type": "markdown", "id": "4388cd4f", "metadata": {}, "source": [ "__д) [5 баллов]__ Найдите медианную цену акций за прошедший год (НЕ 10 лет) для каждого тикера. Сделайте `left join` таблицы с медианными ценами и таблицы с секторами экономики. Найдите для каждого сектора $95\\%$ квантиль медианной цены." ] }, { "cell_type": "code", "execution_count": null, "id": "5a8e10b3", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (¬_¬) " ] }, { "cell_type": "markdown", "id": "040041e8", "metadata": {}, "source": [ "## 1.2 Риск и доходность\n", "\n", "__е) [5 баллов]__ Финансовые продукты описываются двумя характеристикам – __доходностью__ и __риском.__ Доходность – это процентное изменение стоимости за некоторый промежуток времени. Мы будем работать с доходностями за день: \n", "\n", "$$\n", "R_t = \\frac{P_t - P_{t-1}}{P_{t-1}}\n", "$$\n", "\n", "Перейдите к доходностям для всей таблицы `df_prices`. Для того, чтобы посчитать разность между каждой строкой таблицы и предыдущей строкой, используйте команду `.diff()`. Чтобы сдвинуть все строки на одну вниз, используйте команду `shift(1)`. \n", "\n", "Поделите результат работы команды `diff` на результат работы команды `shift`. Обратите внимание, что в первой колонке теперь все значения `NaN`, так как мы не можем посчитать доходность для самого первого дня. Удалите из таблицы эту строку. " ] }, { "cell_type": "code", "execution_count": null, "id": "ef44034a", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (⊙_⊙)\n", "\n", "df_r = ..." ] }, { "cell_type": "markdown", "id": "d33dc906", "metadata": {}, "source": [ "Постройте для 5 случайно выбранных тикеров картинку с динамикой доходностей, гистограмму доходностей и ящики с усами. Ответьте на следующие вопроcы:\n", "\n", "- Имеют ли доходности по акциям нормальное распределение? \n", "- Видно ли по ящику с усами, что в данных довольно много выбросов? \n", "\n", "__Ответ:__ ваш текст" ] }, { "cell_type": "code", "execution_count": null, "id": "72c923bc", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# =^・ェ・^=" ] }, { "cell_type": "markdown", "id": "9d8cf646", "metadata": {}, "source": [ "Чтобы посмотреть, насколько сильно распределение отличается от нормального, можно вспользоваться диаграммой квантиль-квантиль. На картинке ниже видно, что центр распределения похож на нормальное, а квантили на хвостах отличаются от нормальных в более тяжёлую сторону. " ] }, { "cell_type": "code", "execution_count": 19, "id": "3fea5a15", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "ax = plt.subplot(111)\n", "x = df_r['TSLA'].values\n", "sts.probplot(x, dist=\"norm\", sparams=(x.mean(), x.std()), plot=ax);" ] }, { "cell_type": "markdown", "id": "5f1eeed9", "metadata": {}, "source": [ "__ё) [10 баллов]__ Без буквы `ё` никуда, скажут нам [Пафнутий Чебышёв](https://ru.wikipedia.org/wiki/%D0%A7%D0%B5%D0%B1%D1%8B%D1%88%D1%91%D0%B2,_%D0%9F%D0%B0%D1%84%D0%BD%D1%83%D1%82%D0%B8%D0%B9_%D0%9B%D1%8C%D0%B2%D0%BE%D0%B2%D0%B8%D1%87) и [Лёв Толстой](https://arzamas.academy/special/ruslit/writers/tolstoy). \n", "\n", "Разобьём выборку на обучающую и тестовую. Первые 4 года войдут в обучающую выборку, последний год в тестовую. Мы будем оценивать рискованность и доходность разных активов на обучающей выборке, а затем смотреть, насколько хорошо мы это сделали на тестовой." ] }, { "cell_type": "code", "execution_count": 20, "id": "22a60841", "metadata": {}, "outputs": [], "source": [ "df_train = df_r[df_r.index < '2022-03-03']\n", "df_test = df_r[df_r.index >= '2022-03-03']" ] }, { "cell_type": "markdown", "id": "9442d933", "metadata": {}, "source": [ "__Все расчёты ниже делайте по обучающей выборке.__ \n", "\n", "Посчитайте для всех компаний на обучающей выборке среднюю доходность (просто сделайте `.mean()` за весь период). Найдите 10 самых доходных компаний и 10 самых убыточных. Есть ли среди самых доходных компаний Тесла? :) " ] }, { "cell_type": "code", "execution_count": null, "id": "0e146431", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# C (・_・)ノ\n", "\n", "R = ..." ] }, { "cell_type": "markdown", "id": "5b42af29", "metadata": {}, "source": [ "Один из способов измерить, насколько ценная бумага рискованная - использовать стандартное отклонение. Посчитайте для всех компаний стандартное отклонение доходности. Найдите 10 самых рискованных компаний и 10 самых безрисковых. Есть ли среди самых рискованных компаний Тесла? :) " ] }, { "cell_type": "code", "execution_count": null, "id": "caf8e5c9", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ٩(ˊ〇ˋ*)و\n", "\n", "STD = ..." ] }, { "cell_type": "markdown", "id": "5501075c", "metadata": {}, "source": [ "Обычно инвесторы принимают решение покупать бумагу к себе в портфель, отталкиваясь от того какие соотношения доходность/риск существуют на рынке. Создайте таблицу `df_result`. Запищите туда три колонки: тикер, доходность и стандартное отклонение." ] }, { "cell_type": "code", "execution_count": 24, "id": "629baf44", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
stdr
A0.0155560.000808
AAL0.0314760.000579
AAP0.0200500.000659
AAPL0.0175790.001268
ABBV0.0173310.000925
\n", "
" ], "text/plain": [ " std r\n", "A 0.015556 0.000808\n", "AAL 0.031476 0.000579\n", "AAP 0.020050 0.000659\n", "AAPL 0.017579 0.001268\n", "ABBV 0.017331 0.000925" ] }, "execution_count": 24, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df_result = ... # your code here\n", "df_result.head()" ] }, { "cell_type": "markdown", "id": "3fe0398f", "metadata": {}, "source": [ "Постройте для наших ценных бумаг диаграмму рассеивания, на которой будет видно, где по своей доходности и риску находится какая ценная бумага.\n", "\n", "Отдельно отметьте на картинке точку, соотвествующую Тесле так, чтобы её было видно. Можно ли купить какую-то другую бумагу, которая обладает примерно такой же доходностью как тесла, но при этом её риск меньше? \n", "\n", "__Ответ:__ ваш текст" ] }, { "cell_type": "code", "execution_count": null, "id": "4433095b", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (っ˘ڡ˘ς) " ] }, { "cell_type": "markdown", "id": "f62a0c95", "metadata": {}, "source": [ "Чем больше риск, тем выше потенциально может оказаться доходноcть. __Но при этом мы с более высокой вероятностью можем уйти в убыток.__ " ] }, { "cell_type": "markdown", "id": "0aa06117", "metadata": {}, "source": [ "__ж) [5 баллов]__ Надо понимать, что стандартное отклонение чувствительно к выбросам. Поэтому в качестве меры риска часто рассматривают $\\text{VaR}$. \n", "\n", "__Value-at-Risk__ — одна из самых распространенных форм измерения финансовых рисков. Общепринято обозначается $\\text{VaR}$. Еще его часто называют статистика $16:15$, такое название он получил потому, что $16:15$ – это время, в которое он якобы должен лежать на столе главы правления банка JPMorgan. (В этом банке данный показатель был впервые введен с целью повышения эффективности работы с рисками).\n", "\n", "__Value-at-Risk__ на каком-либо уровне (скажем, $5\\%$) – это просто квантиль уровня $5\\%$. То есть это такая доходность, что в $95\\%$ случаев у нас дела будут лучше." ] }, { "cell_type": "markdown", "id": "64ed05e7", "metadata": {}, "source": [ "Посчитайте $5\\%$ $\\text{VaR}$ по всем ценным бумагам. Для этого используйте метод `quantile()`. Найдите 10 самых рискованных компаний и 10 наименее рискованных компаний с точки зрения этого показателя. Запишите `VaR` в табличку `df_result` отдельной колонкой (нужно сделать `join`). Домножьте значения VaR на -1, чтобы интерпретировать числа как потери. " ] }, { "cell_type": "code", "execution_count": 26, "id": "cdce041e", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# `、ヽ`ヽ`、ヽ(ノ><)ノ `、ヽ`☂ヽ`、ヽ\n", "\n", "VaR = ..." ] }, { "cell_type": "code", "execution_count": 27, "id": "5c9d8b1b", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
stdrVaR
A0.0155560.0008080.025164
AAL0.0314760.0005790.044087
AAP0.0200500.0006590.026499
AAPL0.0175790.0012680.025629
ABBV0.0173310.0009250.024926
\n", "
" ], "text/plain": [ " std r VaR\n", "A 0.015556 0.000808 0.025164\n", "AAL 0.031476 0.000579 0.044087\n", "AAP 0.020050 0.000659 0.026499\n", "AAPL 0.017579 0.001268 0.025629\n", "ABBV 0.017331 0.000925 0.024926" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# добавим получившиеся значения в нашу таблицу\n", "VaR.name = 'VaR'\n", "df_result = df_result.join(VaR)\n", "df_result.head()" ] }, { "cell_type": "markdown", "id": "85b20ac0", "metadata": {}, "source": [ "Постройте для наших ценных бумаг диаграмму рассеивания, на которой будет видно, где по своей доходности и риску находится какая ценная бумага. Отдельно отметьте теслу. В качестве меры риска используйте $\\text{VaR}.$" ] }, { "cell_type": "code", "execution_count": null, "id": "74244255", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ٩(x̯x)۶" ] }, { "cell_type": "markdown", "id": "af3825b9", "metadata": {}, "source": [ "$\\text{VaR}$ хорош тем, что описывает именно ту часть распределения, которую мы боимся. Но $\\text{VaR}$ - это лучшее из $5\\%$ худших случаев. А что лежит в тех $5\\%$ худших случаев?…" ] }, { "cell_type": "markdown", "id": "ca2253fe", "metadata": {}, "source": [ "__Expected shortfall__ - это среднее значение по всем тем точкам, что оказались хуже $\\text{VaR}$, То есть среднее по худшим $5\\%$. Эта метрика показывает что в среднем произойдёт с нашей доходностью в этих самых плохих $5\\%$ случаев. \n", "\n", "- Рассчитаете $\\text{ES}$ для Теслы\n", "- Предположим, что мы вложили в Теслу $1000$ долларов в один из самых неудачных дней. Сколько в среднем денег мы потеряем от этой $1000$ долларов к концу дня? \n", "- Посчитайте, сколько денег мы заработаем в $5\\%$ лучших случаев к концу дня? \n", "\n", "__Важно:__ $\\text{VaR}$ и $\\text{ES}$ в этом пункте - отрицательные числа." ] }, { "cell_type": "code", "execution_count": null, "id": "041d46d9", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ( ͡⊙ ͜ʖ ͡⊙)" ] }, { "cell_type": "markdown", "id": "43f5ec53", "metadata": {}, "source": [ "Посчитайте $\\text{ES}$ по всем ценным бумагам. Домножьте получившееся значение на (-1). Запишите его отдельным столбцом в `df_result` (нужно сделать `join`)" ] }, { "cell_type": "code", "execution_count": null, "id": "239d45d3", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# \\_(ツ)_/¯" ] }, { "cell_type": "markdown", "id": "939382f8", "metadata": {}, "source": [ "1. Округлите данные до 3-х знаков после запятой `df_result.round(3)`\n", "2. Отсортируйте таблицу `df_result` по колонке `ES` по убыванию\n", "3. Запишите получившиеся результаты в таблицу с колонками `'Ticker', 'std', 'r', 'VaR', 'ES'` в файл `var_result` Таблица должна быть без индексов. Последняя строка не должна быть пустой. Колонки друг от друга отделяются запятыми. Порядок колонок должен быть именно таким.\n", "4. Отправьте свой файл `var_result.csv` в контест (https://contest.yandex.ru/contest/47242/problems/A) и прикрепите/укажите ниже ваш никнейм и ссылку на успешную посылку." ] }, { "cell_type": "markdown", "id": "483fc6c4", "metadata": {}, "source": [ "> __Дисклеймер:__ Успешная посылка в контесте является обязательным условием получения полного балла за этот (и следующий) пункт. Если добиться успешной посылки не удастся, баллы будут выставляться на усмотрение проверяюшего.\n", "\n", "> При этом ОК в контесте не гарантирует полный балл. Оценка всё равно может быть снижена в случае обнаружения неэффективностей или ошибок в коде. Если вы сдадите в AnyTask очевидно неработающий код или ноутбук без кода, но при этом в контест будет сдан корректный файл, то это будет расцениваться как плагиат. На всякий случай просим вас сдать вместе с ноутбуком файл res_fall.csv в anytask." ] }, { "cell_type": "markdown", "id": "d5c771c6", "metadata": {}, "source": [ "__Какая метрика лучше?__\n", "\n", "Никакая. Все рассуждения о риске – это попытки уложить функцию распределения доходностей в одно единственное число. Поэтому информация потеряется и все метрики будут не идеальны. А к чему это приведет, можно прочитать в книге Скотта Паттерсона [\"Кванты. Как волшебники от математики заработали миллиарды и чуть не обрушили фондовый рынок.\"](https://disk.yandex.ru/i/ryFfPZ8_1uTO6g) Тем не менее, какие-то цифры, на которые можно было бы ориентироваться при принятии решений необходимы." ] }, { "cell_type": "markdown", "id": "ad0ba4e8", "metadata": {}, "source": [ "## 1.3 VaR-кривая " ] }, { "cell_type": "markdown", "id": "15913c74", "metadata": {}, "source": [ "__з) [10 баллов]__ Мы что-то насчитали. А это вообще работает? Давайте проверим на тестовой выборке для Теслы." ] }, { "cell_type": "code", "execution_count": 33, "id": "f744be4f", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.14285714285714285" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "var_tsla = df_train['TSLA'].quantile(0.05)\n", "df_tsla = df_test['TSLA'].reset_index()\n", "df_tsla['is_bad'] = (df_test['TSLA'].values < var_tsla)\n", "df_tsla['is_bad'].mean()" ] }, { "cell_type": "markdown", "id": "cd2341bc", "metadata": {}, "source": [ "На тестовой выборке мы пробили для Теслы VaR в 14% случаев вместо 5%. Это очень плохой результат. Наша оценка риска оказалась провальной. Можно с помощью теста Купика проверить значимость этих отличий, но мы пока что не будем это делать. Отложим эту историю до домашки про гипотезы.\n", "\n", "Нарисуем VaR-кривую." ] }, { "cell_type": "code", "execution_count": 34, "id": "723861aa", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.figure(figsize=(10,5))\n", "sns.scatterplot(data=df_tsla, x='Date',y='TSLA', hue='is_bad')\n", "plt.hlines(var_tsla, df_tsla.Date.min(), df_tsla.Date.max(), color='red')\n", "plt.title('VaR-кривая');" ] }, { "cell_type": "markdown", "id": "25de1941", "metadata": {}, "source": [ "А почему все это плохо? А потому, что мы не расширяем обучающую выборку, то есть не учитываем новую информацию. Мы один раз предсказали $\\text{VaR}$ и так с ним и сидим. Давайте сделаем по-другому.\n", "\n", "- Выделите $N$ точек (первые 4 года), найдите по ним $\\text{VaR}$ для $N+1$ дня. Потом сдвинем $N$ точек вправо и найдём $\\text{VaR}$ по ним для точки $N + 2$. И так далее. Тогда $\\text{VaR}$ будет в каждой точке разный. \n", "- Нарисуйте получившуюся для Теслы кривую на картинке.\n", "- Посчитайте как часто мы пробивали $\\text{VaR}$ на практике, улучшилась ли цифра?" ] }, { "cell_type": "code", "execution_count": null, "id": "337ff3a5", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ʕ•ᴥ•ʔ" ] }, { "cell_type": "markdown", "id": "ca0f1494", "metadata": {}, "source": [ "Способ оценки $\\text{VaR},$ который мы использовали, называется **историческим.** Кроме него есть довольно много других способов. Например:\n", "\n", "- можно попробовать подогнать какое-то распределение под данные и взять его квантиль\n", "- можно попробовать обучить модель машинного обучения предсказывать соотвествующий квантиль\n", "- можно обучить какую-нибудь модель на временном ряде\n", "- можно попробовать отдельно моделировать хвосты распределения\n", "\n", "Часть способов более подробно можно [посмотреть в лекциях Ильи Езепова.](https://rpubs.com/iezepov) Они немного староваты, но хороши. " ] }, { "cell_type": "markdown", "id": "8380d4c0", "metadata": {}, "source": [ "__и) [бонусные 5 баллов]__\n", "\n", "Разберитесь как работает какой-нибудь ещё метод оценки $\\text{VaR}$ и реализуйте его. Сравните его работу с историческим методом на нескольких ценных бумагах из наших данных. Например, вы можете разобраться с [ОГРом](https://rpubs.com/iezepov/e502lec2) или [моделированием хвостов.](https://rpubs.com/iezepov/e502lec6) Весь код должен быть написан на питоне. Часть бонуса -- попытаться найти библиотеки для этого." ] }, { "cell_type": "code", "execution_count": null, "id": "fbfe80d2", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# [✖‿✖]" ] }, { "cell_type": "markdown", "id": "3b119e08", "metadata": {}, "source": [ " ---------" ] }, { "cell_type": "markdown", "id": "2f958ef8", "metadata": {}, "source": [ "# Часть 2: чековая\n", "\n", "За задание можно получить $50$ баллов. Мы будем работать с покупками и чеками. Смотреть за корреляциями в покупках довольно полезно.\n", "\n", "> В 1992 году группа по консалтингу в области ритейла компании Teradata под руководством Томаса Блишока провела исследование 1.2 миллиона транзакций в 25 магазинах для ритейлера Osco Drug (Drug Store — формат разнокалиберных магазинов у дома). После анализа всех этих транзакций самым сильным правилом получилось «Между 17:00 и 19:00 чаще всего пиво и подгузники покупают вместе». \n", "\n", ">К сожалению, такое правило показалось руководству Osco Drug настолько контринтуитивным, что ставить подгузники на полках рядом с пивом они не стали. Хотя объяснение паре пиво-подгузники вполне себе нашлось: когда оба члена молодой семьи возвращались с работы домой (как раз часам к 5 вечера), жены обычно отправляли мужей за подгузниками в ближайший магазин. И мужья, не долго думая, совмещали приятное с полезным — покупали подгузники по заданию жены и пиво для собственного вечернего времяпрепровождения.\n", "\n", "Для работы будем использовать датасет о продуктовых корзинах: https://www.kaggle.com/heeraldedhia/groceries-dataset\n", "\n", "- `id` - номер покупки (чека)\n", "- `fielddate` - дата покупки\n", "- `product` - что было куплено" ] }, { "cell_type": "code", "execution_count": 35, "id": "77aeaa92", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(38765, 3)\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idfielddateproduct
0180821-07-2015tropical fruit
1255205-01-2015whole milk
2230019-09-2015pip fruit
3118712-12-2015other vegetables
4303701-02-2015whole milk
\n", "
" ], "text/plain": [ " id fielddate product\n", "0 1808 21-07-2015 tropical fruit\n", "1 2552 05-01-2015 whole milk\n", "2 2300 19-09-2015 pip fruit\n", "3 1187 12-12-2015 other vegetables\n", "4 3037 01-02-2015 whole milk" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_csv('data/groceries.csv', sep=',')\n", "df.columns = ['id', 'fielddate', 'product']\n", "print(df.shape)\n", "df.head()" ] }, { "cell_type": "markdown", "id": "a501384d", "metadata": {}, "source": [ "## 2.1 Разогреваемся" ] }, { "cell_type": "markdown", "id": "e8e9bf00", "metadata": {}, "source": [ "__а) [10 баллов]__ Сколько всего уникальных заказов было сделано?" ] }, { "cell_type": "code", "execution_count": 36, "id": "253b64f5", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3898" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════ bzzzzzzzzzz\n", "# will the code be with you\n", "\n", "# your code here\n", "# ┌(ಠ_ಠ)┘" ] }, { "cell_type": "markdown", "id": "3a6bdcc7", "metadata": {}, "source": [ "Какие товары покупались чаще всего? Найдите топ-10 самых популярных товаров и изобразите частоту их покупок на столбиковой диаграмме. " ] }, { "cell_type": "code", "execution_count": null, "id": "177cc138", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ( .-. )" ] }, { "cell_type": "markdown", "id": "0ce15371", "metadata": {}, "source": [ "Визуализируйте как часто покупались товары с помощью [облака слов.](https://www.python-graph-gallery.com/wordcloud/) Для графика используйте все товары из датасета. " ] }, { "cell_type": "code", "execution_count": null, "id": "ced1cda6", "metadata": {}, "outputs": [], "source": [ "from wordcloud import WordCloud\n", "\n", "# your code here\n", "# ฅ^•ﻌ•^ฅ " ] }, { "cell_type": "markdown", "id": "bbb9a52d", "metadata": {}, "source": [ "__б) [10 баллов]__ Начнём анализировать совместные покупки товаров.\n", "\n", "В таблице выше в каждой строке записана информация о покупке конкретного товара. Давайте сделаем табличку размера \"число товаров\" на \"число покупок\", чтобы понимать какие товары покупались вместе, а какие нет. \n", "\n", "По строкам отложите номера чеков. По столбцам отложите название продуктов. На пересечении должно стоять число товаров, купленное в этом чеке. Используйте для этого команду `pivot_table`." ] }, { "cell_type": "code", "execution_count": 38, "id": "6e388249", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
productInstant food productsUHT-milkabrasive cleanerartif. sweetenerbaby cosmeticsbagsbaking powderbathroom cleanerbeefberries...turkeyvinegarwaffleswhipped/sour creamwhiskywhite breadwhite winewhole milkyogurtzwieback
id
10000000000000...0000000210
10010000000010...0001010200
10020000000000...0000000100
10030000000000...0000000000
10040000000000...0000000300
\n", "

5 rows × 167 columns

\n", "
" ], "text/plain": [ "product Instant food products UHT-milk abrasive cleaner artif. sweetener \\\n", "id \n", "1000 0 0 0 0 \n", "1001 0 0 0 0 \n", "1002 0 0 0 0 \n", "1003 0 0 0 0 \n", "1004 0 0 0 0 \n", "\n", "product baby cosmetics bags baking powder bathroom cleaner beef berries \\\n", "id \n", "1000 0 0 0 0 0 0 \n", "1001 0 0 0 0 1 0 \n", "1002 0 0 0 0 0 0 \n", "1003 0 0 0 0 0 0 \n", "1004 0 0 0 0 0 0 \n", "\n", "product ... turkey vinegar waffles whipped/sour cream whisky \\\n", "id ... \n", "1000 ... 0 0 0 0 0 \n", "1001 ... 0 0 0 1 0 \n", "1002 ... 0 0 0 0 0 \n", "1003 ... 0 0 0 0 0 \n", "1004 ... 0 0 0 0 0 \n", "\n", "product white bread white wine whole milk yogurt zwieback \n", "id \n", "1000 0 0 2 1 0 \n", "1001 1 0 2 0 0 \n", "1002 0 0 1 0 0 \n", "1003 0 0 0 0 0 \n", "1004 0 0 3 0 0 \n", "\n", "[5 rows x 167 columns]" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# your code here\n", "# ٩(⁎❛ᴗ❛⁎)۶" ] }, { "cell_type": "markdown", "id": "61660573", "metadata": {}, "source": [ "В нашей матрице огромное число нулей. Обычно такие матрицы называют разряжеными. Мы занимаем нулями кучу свободной памяти, которую мы могли бы не занимать, если бы хранили данные [в виде разреженных матриц.](https://cmdlinetips.com/2018/03/sparse-matrices-in-python-with-scipy/) У нас данные небольшие, поэтому мы забьём на неоптимальность и продолжим работать с ними в `pandas`." ] }, { "cell_type": "markdown", "id": "c3f19db5", "metadata": {}, "source": [ "Постройте матрицу корреляций Пирсона. Визуализируйте матрицу с помошью heatmap." ] }, { "cell_type": "code", "execution_count": null, "id": "68da0a43", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ヾ(๑╹◡╹)ノ" ] }, { "cell_type": "markdown", "id": "8fc3a97d", "metadata": {}, "source": [ "Какие продукты сильнее всего коррелируют с яйцами, `domestic eggs` (их чаще всего покупают вместе)? Какие продукты \"мешают\" купить яйца, то есть отрицательно коррелируют с их покупкой? " ] }, { "cell_type": "code", "execution_count": null, "id": "21a295ba", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ༼ つ ಥ_ಥ ༽つ" ] }, { "cell_type": "markdown", "id": "d024cfc0", "metadata": {}, "source": [ "Какие два продукта коррелируют сильнее всего? " ] }, { "cell_type": "code", "execution_count": null, "id": "edd061ca", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (  ̄ー ̄)" ] }, { "cell_type": "markdown", "id": "5d8c0fa3", "metadata": {}, "source": [ "__Вопрос:__ почему корреляция пирсона это плохой способ измерить взаимосвязть между покупками?\n", "\n", "__Ответ:__\n" ] }, { "cell_type": "markdown", "id": "f8179743", "metadata": {}, "source": [ "## 2.2 Коэффициент корреляции Мэтьюса\n", "\n", "__Коэффициент корреляции Мэтьюса__ — это мера силы взаимосвязи между двумя бинарными переменными. Для того чтобы его вычислить, необходимо использовать таблицу сопряженности\n", "\n", "| | $0$ | $1$ |\n", "|:------:|:------:|:------:|\n", "| $0$ | $a$ | $b$ |\n", "| $1$ | $c$ | $d$ |\n", "\n", "В строках таблицы сопряжённости находятся значения одного признака, по столбцам — второго, в каждой ячейке — количество объектов, на которых реализовалась эта пара. Коэффициент корреляции Мэтьюса вычисляется по данным из таблицы сопряжённости следующим образом:\n", "\n", "$$\n", "MCC(X_1, X_2) = \\frac{a \\cdot d - b \\cdot c}{\\sqrt{(a + b) \\cdot (a + c) \\cdot (b + d) \\cdot (c + d)}}\n", "$$\n", "\n", "Точно так же, как и коэффициенты Пирсона и Спирмена, корреляция Мэтьюса лежит в диапазоне от $−1$ до $1.$ Нулевое значение соответсвуте отсутствию взаимосвязи между переменными. Значение $MCC(X_1, X_2) = 1$ соотвествует случаю, когда $X_1$ и $X_2$ полностью совпадают, то есть $b = c = 0$. Значение $MCC(X_1, X_2) = -1$ соответствует случаю, когда каждое значение $X_1$ отличается от каждого значения $X_2$. \n", "\n", "Для категориальных переменных можно также считать коэффициент V-Крамера. Подробнее можно почитать про разные корреляции [в этом конспекте.](https://disk.yandex.ru/i/Znahvyg3mIrW9A)" ] }, { "cell_type": "markdown", "id": "4b39b05a", "metadata": {}, "source": [ "__в) [10 баллов]__ \n", "\n", "1. Оставьте в таблице сопряжённости два значения. Нулевое, если товара не был в чеке и единичное, если был\n", "2. Отфильтруйте из рассмотрения товары, которые встречались меньше, чем в 10 чеках (оставить то, что `>= 10`)\n", "3. Посчитайте для каждой пары коэффициент корреляции Мэтьюса. Чтобы удобнее было перебрать все сочетания, используйте `combinations` из модуля `itertools`.\n", "4. Запишите получившиеся результаты в таблицу с колонками `product_1, product_2, matthews_corrcoef`. \n", "5. Отсортируйте получившиеся пары по коэффициенту Мэтьюса от 1 к -1 и сохраните первые сто строк получившейся таблички в файл `result_matthews.csv` Таблица должна быть без индексов. Последняя строка не должна быть пустой. Колонки друг от друга отделяются запятыми." ] }, { "cell_type": "code", "execution_count": null, "id": "f80ba9c6", "metadata": {}, "outputs": [], "source": [ "from sklearn.metrics import matthews_corrcoef\n", "\n", "# your code here\n", "# (⌐■_■)" ] }, { "cell_type": "markdown", "id": "bad52a98", "metadata": {}, "source": [ "Отправьте свой файл `result_mat.csv` в контест (https://contest.yandex.ru/contest/47242/problems/B/) и прикрепите/укажите ниже ваш никнейм и ссылку на успешную посылку.\n", "\n", "> __Дисклеймер:__ Успешная посылка в контесте является обязательным условием получения полного балла за этот (и следующий) пункт. Если добиться успешной посылки не удастся, баллы будут выставляться на усмотрение проверяюшего.\n", "\n", "> При этом ОК в контесте не гарантирует полный балл. Оценка всё равно может быть снижена в случае обнаружения неэффективностей или ошибок в коде. Если вы сдадите в AnyTask очевидно неработающий код или ноутбук без кода, но при этом в контест будет сдан корректный файл, то это будет расцениваться как плагиат. На всякий случай просим вас сдать вместе с ноутбуком файл res_fall.csv в anytask." ] }, { "cell_type": "markdown", "id": "8ddfd143", "metadata": {}, "source": [ "## 2.3 Независимость событий" ] }, { "cell_type": "markdown", "id": "77e388af", "metadata": {}, "source": [ " Конечно же, корреляция — это [не единственный способ искать](https://habr.com/ru/company/ods/blog/353502/) между покупками ассоциативные правила. Давайе попробуем другой подход." ] }, { "cell_type": "markdown", "id": "d4417469", "metadata": {}, "source": [ "Мы знаем, что события $A$ и $B$ называются независимыми, если $P(AB) = P(A)\\cdot P(B)$. Отталкиваясь от этого определения, можно ввести другую характеристику, которая показывает, насколько продукты зависят друг от друга, а именно __поддержку (lift).__ \n", "\n", "$$\n", "lift = \\frac{P(AB)}{P(A)\\cdot P(B)}\n", "$$" ] }, { "cell_type": "markdown", "id": "f47b94ab", "metadata": {}, "source": [ "Эта метрика описывает отношение зависимости товаров к их независимости. Если оказалось, что `lift = 1`, это означает, что покупка товара $A$ не зависит от покупки товара $B$. Если `lift > 1`, то это означает, что вероятность встретить оба товара в чеке, $P(AB)$ высокая, то есть товары покупают вместе. Если `lift < 1`, это означает, что товары, наоборот, очень часто покупают по-отдельности. " ] }, { "cell_type": "markdown", "id": "9708c409", "metadata": {}, "source": [ "__г) [5 баллов]__ Посчитайте значение нашей метрики для яиц и молока (`'whole milk', 'domestic eggs'`).\n", "\n", "> Вам аккуратно нужно сделать три среза по условию `>= 1`. Там, где пара надо делать срез так, чтобы оба товара дали `True`. Сделать это в одну строку вам поможет метод `.all(axis=1)`. Частоты можно получить методом `.mean()`, так как python думает, что `False` - это ноль, а `True` - это единица." ] }, { "cell_type": "code", "execution_count": null, "id": "1aba1bbe", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# ლ(ಠ益ಠლ)" ] }, { "cell_type": "markdown", "id": "da253d89", "metadata": {}, "source": [ "__д) [10 баллов]__ \n", "\n", "1. Оставьте в таблице сопряжённости два значения. Нулевое, если товара не был в чеке и единичное, если был\n", "2. Отфильтруйте из рассмотрения товары, которые встречались меньше, чем в 10 чеках (оставить то, что `>= 10`)\n", "3. Посчитайте для каждой пары значение поддержки, `lift`. Чтобы удобнее было перебрать все сочетания, используйте `combinations` из модуля `itertools`.\n", "4. Запишите получившиеся результаты в таблицу с колонками `product_1, product_2, lift`. \n", "5. Отсортируйте получившиеся пары по значению lift от больших к меньшим и сохраните первые сто строк получившейся таблички в файл `result_lift.csv` Таблица должна быть без индексов. Последняя строка не должна быть пустой. Колонки друг от друга отделяются запятыми." ] }, { "cell_type": "code", "execution_count": null, "id": "b03d7b4d", "metadata": { "scrolled": true }, "outputs": [], "source": [ "# your code here\n", "# (❍ᴥ❍ʋ)" ] }, { "cell_type": "markdown", "id": "a3627b25", "metadata": {}, "source": [ "Отправьте свой файл `result_lift.csv` в контест (https://contest.yandex.ru/contest/47242/problems/C/) и прикрепите/укажите ниже ваш никнейм и ссылку на успешную посылку.\n", "\n", "> __Дисклеймер:__ Успешная посылка в контесте является обязательным условием получения полного балла за этот (и следующий) пункт. Если добиться успешной посылки не удастся, баллы будут выставляться на усмотрение проверяюшего.\n", "\n", "> При этом ОК в контесте не гарантирует полный балл. Оценка всё равно может быть снижена в случае обнаружения неэффективностей или ошибок в коде. Если вы сдадите в AnyTask очевидно неработающий код или ноутбук без кода, но при этом в контест будет сдан корректный файл, то это будет расцениваться как плагиат. На всякий случай просим вас сдать вместе с ноутбуком файл res_fall.csv в anytask." ] }, { "cell_type": "markdown", "id": "77608211", "metadata": {}, "source": [ "__е) [5 баллов]__ Давайте проинтепретируем результаты.\n", "\n", "- Посмотрите на 10 пар продуктов с самой высокой корреляцией Мэтьюса и на 10 пар с самой низкой. Проинтерпретируйте, насколько эта корреляция логична? Придумайте ситуации, когда какие-то из пар могли бы покупаться вместе.\n", "- Посмотрите на 10 пар продкутов с самым высоким lift, насколько логично они выделились? \n", "- Насколько большим оказалось пересечение двух методов? Как думаете, почему? А если взять первые сто пар?\n", "\n", "__Ответы:__ ваш текст" ] }, { "cell_type": "code", "execution_count": null, "id": "c4b19086", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# (。❤‿❤。)" ] }, { "cell_type": "markdown", "id": "117f9016", "metadata": {}, "source": [ "__ё) [бонусные 5 баллов]__ \n", "\n", "Иногда в чеках пытаются искать __продукты-якоря.__ То есть продукты, которые являются основными. Например: айфон - основной продукт, наушники и чехол - дополнения к нему. Предложите алгоритм поиска таких товаров, похожий на то, что мы делали выше. Реализуйте алгоритм поиска якорей, который вы придумали. \n", "\n", "__Ответ:__ ваш текст\n" ] }, { "cell_type": "code", "execution_count": null, "id": "b319b3f1", "metadata": {}, "outputs": [], "source": [ "# your code here\n", "# [̲̅$̲̅(̲̅5̲̅)̲̅$̲̅]" ] }, { "cell_type": "markdown", "id": "ee37538d", "metadata": {}, "source": [ " " ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.9" } }, "nbformat": 4, "nbformat_minor": 5 }