{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Введение в ТВиМС: практикум по проверке статистических гипотез\n", "\n", "*Алла Тамбовцева, НИУ ВШЭ*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Импортируем библиотеку `pandas` для чтения и обработки данных, хранящихся в файле Excel. Она обычно импортируется с сокращенным названием `pd`:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Подготовка данных\n", "\n", "Для работы мы будем использовать совсем свежие данные – результаты опроса на паре по Python, посвященному героям музыкальной сказки «Не покидай...» 1989 года (страница фильма будет в домашнем задании на парсинг HTML). \n", "\n", "Кого не было на той паре, идея опроса: \n", "\n", "* сначала было предложено выбрать самых интересных героев по их краткому описанию (как в пьесах, без подробностей, раскрывающих сюжет);\n", "\n", "* потом были показаны [слайды](https://www.dropbox.com/s/s6ol9banegd365b/%D0%9D%D0%9F_%D1%81%D0%BB%D0%B0%D0%B9%D0%B4%D1%8B-05.pdf?dl=0) с кадрами из фильма с героями в разных ситуациях (видео, конечно, правильнее, но совместный просмотр сказок вместо парсинга в планы не входил);\n", "\n", "* по итогам просмотра слайдов было предложено поставить лайки/дизлайки образам героев и сыгравшим их актерам (нравится или нет, совпало ли с ожиданиями или нет);\n", "\n", "* по итогам знакомства с героями было предложено сделать итоговый выбор самых интересных героев.\n", "\n", "Был запрос «посмотреть на статистику», запрос принят и обработан :)\n", "\n", "Загружаем данные из файла `NPK.xlsx` (файл должен находиться в той же папке, что и текущий ipynb-файл) и удаляем лишний столбец `Unnamed: 0` с номером строки):" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idгруппапрофильполТеодорФлораАльбинаПатрикПенапьюДавильОттилияЖакМартаМарселлавыбор1выбор2итог1итог2
035221_223политологияжен1011001111АльбинаФлораДавильОттилия
136221_223политологияжен0011011111ДавильЖакОттилияЖак
237221_223политологияжен0011001110Жак0ОттилияЖак
338221_223политологияжен0101001111ПатрикПенапьюМартаМарселла
439221_223политологиямуж0001011100ДавильОттилияДавильОттилия
.........................................................
94409экэкономикажен1001011111ФлораЖакЖакПатрик
95410экэкономикажен1101001110ФлораМартаФлораОттилия
96411экэкономикамуж0001100010АльбинаМартаПатрикМарта
97412экэкономикажен1101011111ПатрикМарселлаДавильОттилия
98413экэкономикажен0110111111ОттилияЖакОттилияМарта
\n", "

99 rows × 18 columns

\n", "
" ], "text/plain": [ " id группа профиль пол Теодор Флора Альбина Патрик Пенапью \\\n", "0 35 221_223 политология жен 1 0 1 1 0 \n", "1 36 221_223 политология жен 0 0 1 1 0 \n", "2 37 221_223 политология жен 0 0 1 1 0 \n", "3 38 221_223 политология жен 0 1 0 1 0 \n", "4 39 221_223 политология муж 0 0 0 1 0 \n", ".. ... ... ... ... ... ... ... ... ... \n", "94 409 эк экономика жен 1 0 0 1 0 \n", "95 410 эк экономика жен 1 1 0 1 0 \n", "96 411 эк экономика муж 0 0 0 1 1 \n", "97 412 эк экономика жен 1 1 0 1 0 \n", "98 413 эк экономика жен 0 1 1 0 1 \n", "\n", " Давиль Оттилия Жак Марта Марселла выбор1 выбор2 итог1 \\\n", "0 0 1 1 1 1 Альбина Флора Давиль \n", "1 1 1 1 1 1 Давиль Жак Оттилия \n", "2 0 1 1 1 0 Жак 0 Оттилия \n", "3 0 1 1 1 1 Патрик Пенапью Марта \n", "4 1 1 1 0 0 Давиль Оттилия Давиль \n", ".. ... ... ... ... ... ... ... ... \n", "94 1 1 1 1 1 Флора Жак Жак \n", "95 0 1 1 1 0 Флора Марта Флора \n", "96 0 0 0 1 0 Альбина Марта Патрик \n", "97 1 1 1 1 1 Патрик Марселла Давиль \n", "98 1 1 1 1 1 Оттилия Жак Оттилия \n", "\n", " итог2 \n", "0 Оттилия \n", "1 Жак \n", "2 Жак \n", "3 Марселла \n", "4 Оттилия \n", ".. ... \n", "94 Патрик \n", "95 Оттилия \n", "96 Марта \n", "97 Оттилия \n", "98 Марта \n", "\n", "[99 rows x 18 columns]" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# по умолчанию считывается первый лист файла, он нам и нужен\n", "\n", "survey = pd.read_excel(\"NPK.xlsx\")\n", "survey = survey.drop(columns = \"Unnamed: 0\")\n", "survey" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Профили студентов, участвующих в опросе в разное время:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "политология 36\n", "бизнес-информатика 31\n", "экономика 13\n", "психология 10\n", "прикладная политология 9\n", "Name: профиль, dtype: int64" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "survey[\"профиль\"].value_counts()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для знакомства с данными написаны две функции. Функция `get_top_heroes()` принимает на вход датафрейм (таблицу с данными, как выше) и выводит на экран пары *герой*-*число упоминаний*, отсортированные по убыванию числа упоминаний при выборе героев по их описанию и при итоговом выборе:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "def get_top_heroes(df):\n", " \"\"\"\n", " Parameters:\n", " df: a pandas data frame with survey results.\n", " Creates a list of tuples with pairs (name, count).\n", " Prints pairs (name, count) sorted by count, \n", " in the descending order.\n", " \"\"\"\n", " \n", " heroes = ['Теодор', 'Флора', 'Альбина', 'Патрик', 'Пенапью', \n", " 'Давиль', 'Оттилия', 'Жак', 'Марта', 'Марселла']\n", " \n", " # словарь start: ключи – герои, \n", " # значения – число упоминаний в столбце выбор1 или выбор2\n", " # словарь end: ключи – герои, \n", " # значения – число упоминаний в столбце итог1 или итог2\n", " \n", " start = {}\n", " end = {}\n", "\n", " for hero in heroes:\n", " freq1 = (df[\"выбор1\"] == hero).sum()\n", " freq2 = (df[\"выбор2\"] == hero).sum()\n", " start[hero] = freq1 + freq2 \n", " \n", " freq3 = (df[\"итог1\"] == hero).sum()\n", " freq4 = (df[\"итог2\"] == hero).sum()\n", " end[hero] = freq3 + freq4 \n", "\n", " # сортировка пар .items() по убыванию значения \n", " start_freqs = sorted(start.items(), \n", " key = lambda x: x[1], \n", " reverse = True)\n", " \n", " end_freqs = sorted(end.items(), \n", " key = lambda x: x[1], \n", " reverse = True)\n", " print(\"По описанию:\\n\")\n", " print(*start_freqs, sep = \"\\n\")\n", " print(\"\\nИтоговый выбор:\\n\")\n", " print(*end_freqs, sep = \"\\n\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Функция `get_ratings()` тоже принимает на вход датафрейм, но выводит уже пары *герой*-*значение рейтинга*, отсортированные по убыванию рейтинга, где рейтинг вычисляется как число лайков минус число дизлайков, поставленных представленному актерами образу (игру по статичным кадрам, конечно, оценить не можем, ограничение нашего исследования):" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "def get_ratings(df):\n", " \"\"\"\n", " Parameters:\n", " df: a pandas data frame with survey results.\n", " Creates a list of tuples with pairs (name, rating).\n", " Rating is calculated as #likes – #dislikes.\n", " Prints pairs (name, rating) sorted by rating, \n", " in the descending order.\n", " \"\"\"\n", " \n", " heroes = ['Теодор', 'Флора', 'Альбина', 'Патрик', 'Пенапью', \n", " 'Давиль', 'Оттилия', 'Жак', 'Марта', 'Марселла']\n", " \n", " # число строк в датафрейме – общее число опрошенных\n", " n = df.shape[0]\n", " \n", " # results: словарь, где ключи – имена героев,\n", " # значения – рейтинг = лайки - дизлайки\n", " \n", " results = {}\n", " \n", " for hero in heroes:\n", " likes = df[hero].sum()\n", " dislikes = n - likes\n", " rating = likes - dislikes\n", " results[hero] = rating\n", " \n", " freqs = sorted(results.items(), \n", " key = lambda x: x[1], \n", " reverse = True)\n", " print(\"\\nРейтинг: лайки - дизлайки\\n\")\n", " print(*freqs, sep = \"\\n\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Часть 1: результаты предыдущих опросов\n", "\n", "Имитируем реальное исследование: посмотрим на результаты предыдущих аналогичных опросов для понимания контекста и генерации идей для формулировки гипотез. Отфильтруем подходящие строки датафрейма `survey`:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "# предыдущие опросы – профиль не политология\n", "\n", "previous = survey[survey[\"профиль\"] != \"политология\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Запустим функции и изучим отсортированные результаты:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Марта', 21)\n", "('Жак', 16)\n", "('Патрик', 15)\n", "('Альбина', 12)\n", "('Давиль', 12)\n", "('Оттилия', 12)\n", "('Марселла', 12)\n", "('Флора', 10)\n", "('Пенапью', 6)\n", "('Теодор', 3)\n", "\n", "Итоговый выбор:\n", "\n", "('Оттилия', 24)\n", "('Патрик', 20)\n", "('Марта', 16)\n", "('Жак', 14)\n", "('Давиль', 11)\n", "('Теодор', 6)\n", "('Марселла', 6)\n", "('Альбина', 5)\n", "('Пенапью', 2)\n", "('Флора', 1)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Марта', 53)\n", "('Жак', 51)\n", "('Оттилия', 35)\n", "('Патрик', 33)\n", "('Теодор', 21)\n", "('Давиль', 21)\n", "('Альбина', 17)\n", "('Флора', 11)\n", "('Марселла', -1)\n", "('Пенапью', -9)\n" ] } ], "source": [ "get_top_heroes(previous)\n", "get_ratings(previous)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "С разбивкой по полу, кому интересно:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Патрик', 8)\n", "('Давиль', 7)\n", "('Марта', 6)\n", "('Марселла', 5)\n", "('Пенапью', 4)\n", "('Жак', 3)\n", "('Альбина', 2)\n", "('Теодор', 1)\n", "('Оттилия', 1)\n", "('Флора', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Давиль', 7)\n", "('Патрик', 6)\n", "('Оттилия', 5)\n", "('Жак', 5)\n", "('Теодор', 4)\n", "('Марта', 4)\n", "('Альбина', 3)\n", "('Марселла', 3)\n", "('Флора', 0)\n", "('Пенапью', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Марта', 17)\n", "('Давиль', 15)\n", "('Жак', 15)\n", "('Оттилия', 13)\n", "('Теодор', 11)\n", "('Патрик', 7)\n", "('Пенапью', 1)\n", "('Флора', -1)\n", "('Альбина', -1)\n", "('Марселла', -1)\n" ] } ], "source": [ "# отбираем строки из previous для мужского пола\n", "\n", "previous_male = previous[previous[\"пол\"] == \"муж\"]\n", "\n", "get_top_heroes(previous_male)\n", "get_ratings(previous_male)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Марта', 13)\n", "('Жак', 10)\n", "('Флора', 9)\n", "('Оттилия', 9)\n", "('Альбина', 7)\n", "('Патрик', 6)\n", "('Марселла', 6)\n", "('Теодор', 2)\n", "('Пенапью', 2)\n", "('Давиль', 2)\n", "\n", "Итоговый выбор:\n", "\n", "('Оттилия', 16)\n", "('Патрик', 11)\n", "('Марта', 10)\n", "('Жак', 5)\n", "('Давиль', 3)\n", "('Теодор', 2)\n", "('Альбина', 2)\n", "('Пенапью', 2)\n", "('Марселла', 2)\n", "('Флора', 1)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Жак', 30)\n", "('Марта', 30)\n", "('Патрик', 20)\n", "('Флора', 16)\n", "('Оттилия', 16)\n", "('Альбина', 14)\n", "('Теодор', 6)\n", "('Давиль', 4)\n", "('Марселла', 4)\n", "('Пенапью', -6)\n" ] } ], "source": [ "# отбираем строки из previous для женского пола\n", "\n", "previous_female = previous[previous[\"пол\"] == \"жен\"]\n", "\n", "get_top_heroes(previous_female)\n", "get_ratings(previous_female)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Часть 2: результаты нашего опроса" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь посмотрим на результаты по более маленькой выборке – выборке, состоящей из студентов-политологов 1 курса. Все группы:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Давиль', 15)\n", "('Патрик', 14)\n", "('Жак', 13)\n", "('Альбина', 8)\n", "('Марта', 6)\n", "('Пенапью', 5)\n", "('Оттилия', 4)\n", "('Флора', 3)\n", "('Теодор', 2)\n", "('Марселла', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Оттилия', 15)\n", "('Жак', 13)\n", "('Патрик', 11)\n", "('Марта', 11)\n", "('Давиль', 10)\n", "('Альбина', 3)\n", "('Марселла', 3)\n", "('Флора', 1)\n", "('Пенапью', 1)\n", "('Теодор', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Марта', 26)\n", "('Жак', 24)\n", "('Патрик', 22)\n", "('Оттилия', 16)\n", "('Альбина', 8)\n", "('Теодор', 2)\n", "('Давиль', -2)\n", "('Марселла', -4)\n", "('Флора', -12)\n", "('Пенапью', -22)\n" ] } ], "source": [ "polit = survey[survey[\"профиль\"] == \"политология\"]\n", "get_top_heroes(polit)\n", "get_ratings(polit)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "А теперь по группам – заодно поймем, есть ли интересные отличия:" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Давиль', 9)\n", "('Патрик', 7)\n", "('Альбина', 4)\n", "('Пенапью', 4)\n", "('Оттилия', 3)\n", "('Жак', 3)\n", "('Марта', 3)\n", "('Теодор', 2)\n", "('Флора', 1)\n", "('Марселла', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Патрик', 7)\n", "('Оттилия', 7)\n", "('Марта', 6)\n", "('Жак', 5)\n", "('Давиль', 4)\n", "('Альбина', 2)\n", "('Марселла', 2)\n", "('Пенапью', 1)\n", "('Теодор', 0)\n", "('Флора', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Патрик', 12)\n", "('Марта', 12)\n", "('Жак', 8)\n", "('Альбина', 6)\n", "('Оттилия', 4)\n", "('Давиль', 0)\n", "('Теодор', -2)\n", "('Марселла', -4)\n", "('Флора', -6)\n", "('Пенапью', -14)\n" ] } ], "source": [ "# группа 222\n", "\n", "g222 = polit[polit[\"группа\"] == 222]\n", "get_top_heroes(g222)\n", "get_ratings(g222)" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Жак', 10)\n", "('Патрик', 7)\n", "('Давиль', 6)\n", "('Альбина', 4)\n", "('Марта', 3)\n", "('Флора', 2)\n", "('Пенапью', 1)\n", "('Оттилия', 1)\n", "('Теодор', 0)\n", "('Марселла', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Оттилия', 8)\n", "('Жак', 8)\n", "('Давиль', 6)\n", "('Марта', 5)\n", "('Патрик', 4)\n", "('Флора', 1)\n", "('Альбина', 1)\n", "('Марселла', 1)\n", "('Теодор', 0)\n", "('Пенапью', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Жак', 16)\n", "('Марта', 14)\n", "('Оттилия', 12)\n", "('Патрик', 10)\n", "('Теодор', 4)\n", "('Альбина', 2)\n", "('Марселла', 0)\n", "('Давиль', -2)\n", "('Флора', -6)\n", "('Пенапью', -8)\n" ] } ], "source": [ "# группы 221 и 223\n", "\n", "g221_223 = polit[polit[\"группа\"] == \"221_223\"]\n", "get_top_heroes(g221_223)\n", "get_ratings(g221_223)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "С разбивкой по полу:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Давиль', 8)\n", "('Патрик', 7)\n", "('Жак', 7)\n", "('Альбина', 4)\n", "('Пенапью', 2)\n", "('Марта', 2)\n", "('Оттилия', 1)\n", "('Теодор', 0)\n", "('Флора', 0)\n", "('Марселла', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Патрик', 7)\n", "('Жак', 7)\n", "('Марта', 6)\n", "('Оттилия', 5)\n", "('Давиль', 4)\n", "('Альбина', 1)\n", "('Теодор', 0)\n", "('Флора', 0)\n", "('Пенапью', 0)\n", "('Марселла', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Жак', 12)\n", "('Марта', 12)\n", "('Патрик', 10)\n", "('Альбина', 4)\n", "('Оттилия', 4)\n", "('Теодор', 0)\n", "('Давиль', 0)\n", "('Флора', -6)\n", "('Марселла', -6)\n", "('Пенапью', -8)\n" ] } ], "source": [ "polit_male = polit[polit[\"пол\"] == \"муж\"]\n", "\n", "get_top_heroes(polit_male)\n", "get_ratings(polit_male)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "По описанию:\n", "\n", "('Патрик', 7)\n", "('Давиль', 7)\n", "('Жак', 6)\n", "('Альбина', 4)\n", "('Марта', 4)\n", "('Флора', 3)\n", "('Пенапью', 3)\n", "('Оттилия', 3)\n", "('Теодор', 2)\n", "('Марселла', 0)\n", "\n", "Итоговый выбор:\n", "\n", "('Оттилия', 10)\n", "('Давиль', 6)\n", "('Жак', 6)\n", "('Марта', 5)\n", "('Патрик', 4)\n", "('Марселла', 3)\n", "('Альбина', 2)\n", "('Флора', 1)\n", "('Пенапью', 1)\n", "('Теодор', 0)\n", "\n", "Рейтинг: лайки - дизлайки\n", "\n", "('Марта', 14)\n", "('Патрик', 12)\n", "('Оттилия', 12)\n", "('Жак', 12)\n", "('Альбина', 4)\n", "('Теодор', 2)\n", "('Марселла', 2)\n", "('Давиль', -2)\n", "('Флора', -6)\n", "('Пенапью', -14)\n" ] } ], "source": [ "polit_female = polit[polit[\"пол\"] == \"жен\"]\n", "\n", "get_top_heroes(polit_female)\n", "get_ratings(polit_female)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Часть 3: проверка гипотезы о доле" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь перейдем к проверке гипотез. Начнем с долей. Для этого импортируем функцию `proportions_ztest()` из библиотеки `statsmodels`, которая проверяет гипотезу о равенстве доли числу:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "from statsmodels.stats.proportion import proportions_ztest" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для того, чтобы сформулировать гипотезу о генеральной совокупности (а генеральная совокупность в нашем случае будет содержать всех студентов-политологов 1 курса, не только тех, которых опрашивали), обратимся к данным по предыдущим опросам. Предположим, что студенты-политологи несильно отличаются от студентов других специальностей. Тогда доля людей, которым понравился какой-нибудь определенный герой, среди всех студентов-политологов, должна несильно отличаться от доли таких людей среди студентов других специальностей. \n", "\n", "Зафиксируем общее число опрошенных студентов других специальностей:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "63\n" ] } ], "source": [ "N = previous.shape[0]\n", "print(N)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Давайте выберем интересующего нас героя, введем его имя с клавиатуры, а Python выберет из датафрейма `previous` строки, где этот герой встречается в столбце `итог1` или в столбце `итог2`, и посчитает их количество. А мы затем найдем долю таких людей, поделив это число на общее число опрошенных:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Давиль\n", "0.1746031746031746\n" ] } ], "source": [ "h = input()\n", "success = ((previous[\"итог1\"] == h) | (previous[\"итог2\"] == h)).sum()\n", "print(success / N)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Итак, долю мы нашли. Эта доля будет у нас в нулевой гипотезе, альтернативную гипотезу пока выберем двухстороннюю (впишите долю выше вместо многоточия):\n", "\n", "$$\n", "H_0: p = 0.17\n", "$$\n", "$$\n", "H_1: p \\ne 0.17\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для того, чтобы запустить тест для проверки гипотезы о равенстве доли числу, нам нужно зафиксировать объем выборки `n` и число успехов – число интересующих нас людей в этой выборке. Посчитаем число строк в датафрейме `polit` (таблица с результатами только студентов-политологов 1 курса ), а также посчитаем число строк, где в итоговом выборе указан интересующий нас герой:" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "36 10\n" ] } ], "source": [ "n = polit.shape[0]\n", "success_polit = ((polit[\"итог1\"] == h) | (polit[\"итог2\"] == h)).sum()\n", "print(n, success_polit)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Все готово, запускаем тест:" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1.4437643106183864, 0.1488052843361784)" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# count – число успехов (в выборке)\n", "# nobs – объем выборки\n", "# value - подставляем значение из гипотезы\n", "# alternative – тип альтернативы\n", "\n", "proportions_ztest(count = success_polit, \n", " nobs = n, \n", " value = 0.17,\n", " alternative = 'two-sided')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Первое значение, которое выдает эта функция – это наблюдаемое значение статистики критерия, то есть $z_{набл}$, которое мы умеем считать вручную:\n", "\n", "$$\n", "z_{набл} = \\frac{\\hat{p}-p_0}{\\sqrt{\\frac{p_0 q_0}{n}}},\n", "$$\n", "\n", "где $n$ – объем выборки, $\\hat{p}$ – выборочная доля, $p_0$ – значение доли, ожидаемое согласно нулевой гипотезе, а $q_0 = 1- p_0$.\n", "\n", "Второе значение – просто p-value. Как обычно, выбираем уровень значимости $\\alpha$ (или он нам дан в задаче), и если p-value превышает этот уровень значимости, нулевую гипотезу мы не отвергаем. Здесь p-value равно 0.148, на любом разумном уровне значимости (10%, 5%, 1%) нулевая гипотеза не отвергается. Значит, долю политологов, которым понравился канцлер Давиль, можно считать равной 0.17, и значит, эта долю можно считать равной доле «фанатов» канцлера среди студентов других специальностей." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выдачу могли вы оформить и покрасивее: сохранить отдельные значения в переменные и подставить через f-строку:" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "z = 1.444 p-value = 0.14881\n" ] } ], "source": [ "# value - подставляем значение из гипотезы\n", "\n", "z, pvalue = proportions_ztest(count = success_polit, \n", " nobs = n, \n", " value = 0.17,\n", " alternative='two-sided')\n", "print(f\"z = {z:.3f} p-value = {pvalue:.5f}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если бы альтернатива была односторонней, мы бы иначе указали ее тип (`larger` для правосторонней, `smaller` для левосторонней):" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "z = 1.444 p-value = 0.07440\n" ] } ], "source": [ "# value - подставляем значение из гипотезы\n", "\n", "z, pvalue = proportions_ztest(count = success_polit, \n", " nobs = n, \n", " value = 0.17,\n", " alternative='larger')\n", "print(f\"z = {z:.3f} p-value = {pvalue:.5f}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Логичным образом p-value оказалось в два раза меньше, чем в случае двусторонней альтернативы. Ведь теперь мы учитываем только вероятность $P(Z > 1.444)$, а не $P(Z > 1.444) + P(Z < -1.444)$." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Часть 4: проверка гипотезы о среднем" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для проверки гипотезы о среднем нам понадобится модуль `stats` из библиотеки `scipy`:" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "from scipy import stats" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Давайте проверим гипотезу о среднем возрасте актеров, снявшихся в фильме (генеральная совокупность – все актеры, не только те 10 человек, чьи роли мы рассматривали). \n", "\n", "Введем свои догадки о среднем возрасте с клавиатуры:" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "30\n", "30\n" ] } ], "source": [ "age_expected = int(input())\n", "print(age_expected)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Итак, наша нулевая гипотеза и двусторонняя альтернатива (подставьте значение среднего выше):\n", " \n", "$$\n", "H_0: \\mu = 30\n", "$$\n", "$$\n", "H_1: \\mu \\ne 30\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь вернемся к нашей выборке. В нашей выборке 10 актеров, это немного, но нестрашно, как раз понаблюдаем за эффектом малого объема выборки. Загрузим данные со второго листа файла Excel, там представлены некоторые числовые характеристики актеров по данным сайта КиноТеатр:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
геройактервозрастопытфильмографиячисло лайков ктчисло лайков ст
0ТеодорВячеслав Невинный543015714353
1ФлораЛидия Федосеева-Шукшина50311069943
2АльбинаВарвара Владимирова2052113455
3ПатрикИгорь Красавин170112068
4ПенапьюАртем Тынкасов1811512428
5ДавильАльберт Филозов512916513250
6ОттилияРегина Разума37135112164
7ЖакВладимир Ставицкий3192910976
8МартаЕлена Антонова275309376
9МарселлаСветлана Селезнева235479338
\n", "
" ], "text/plain": [ " герой актер возраст опыт фильмография \\\n", "0 Теодор Вячеслав Невинный 54 30 157 \n", "1 Флора Лидия Федосеева-Шукшина 50 31 106 \n", "2 Альбина Варвара Владимирова 20 5 21 \n", "3 Патрик Игорь Красавин 17 0 1 \n", "4 Пенапью Артем Тынкасов 18 1 15 \n", "5 Давиль Альберт Филозов 51 29 165 \n", "6 Оттилия Регина Разума 37 13 51 \n", "7 Жак Владимир Ставицкий 31 9 29 \n", "8 Марта Елена Антонова 27 5 30 \n", "9 Марселла Светлана Селезнева 23 5 47 \n", "\n", " число лайков кт число лайков ст \n", "0 143 53 \n", "1 99 43 \n", "2 134 55 \n", "3 120 68 \n", "4 124 28 \n", "5 132 50 \n", "6 121 64 \n", "7 109 76 \n", "8 93 76 \n", "9 93 38 " ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "info = pd.read_excel(\"NPK.xlsx\", 1)\n", "info" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для проверки гипотезы о равенстве среднего числу нам понадобится функция `ttest_1samp` из модуля `stats`, которая реализует критерий Стьюдента для одной выборки:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Ttest_1sampResult(statistic=0.6159841215028543, pvalue=0.5531627159508599)" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# на первом месте – наша числовая выборка\n", "# (столбец таблицы, массив, список)\n", "# на втором – значение среднего из гипотезы – подставляем\n", "\n", "stats.ttest_1samp(info[\"возраст\"], popmean = 30)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Первое значение, которое возвращает функция – наблюдаемое значение статистики критерия, то есть $t_{набл}$, которое мы умеем вычислять по формуле:\n", "\n", "$$\n", "t_{набл} = \\frac{\\bar{x} - a}{\\frac{s}{\\sqrt{n}}},\n", "$$\n", "\n", "где $\\bar{x}$ – среднее арифметическое выборки, $a$ – значение среднего из нулевой гипотезы, $s$ – стандартное отклонение выборки, $n$ – объем выборки.\n", "\n", "Второе значение – это p-value. Как обычно, фиксируем уровень значимости и делаем вывод о нулевой гипотезе. В нашем случае нулевая гипотеза снова не отвергается, причем при любом разумном уровне значимости (p-value больше наибольшего уровня значимости 10%, который еще приемлемо использовать в исследованиях). Значит, средний возраст актеров фильма можно считать равным 30 годам. Объективно, так и есть, если добавим туда всех остальных актеров, не только тех, которые в нашей выборке, с одной стороны, добавятся дети, а с другой – более возрастные актеры, что при усреднении даст как раз что-то в районе 30-35 лет." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Часть 5: диаграммы рассеивания и коэффициент Пирсона" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь давайте посмотрим на связи между показателями в количественной шкале. Для начала построим диаграммы рассеивания. Посмотрим на связь между возрастом актеров и числом лайков, поставленных зарегистрированными пользователя сайта КиноТеатр. \n", "\n", "Воспользуемся методом `.scatter`, который работает на датафреймах `pandas` и построим диаграмму рассеивания для этих показателей:" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# info - датафрейм\n", "# в x и y вписываем названия столбцов\n", "\n", "info.plot.scatter(x = \"возраст\", y = \"число лайков кт\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Конечно, малый объем выборки не позволяет делать какие-то надежные выводы, однако по графику видно, что связь между показателями, хоть и слабая, но все же положительная, прямая, с увеличением возраста число лайков увеличивается. То есть, актерам более старшего возраста пользователи более склонны ставить лайки.\n", "\n", "Вычислим коэффициент корреляции Пирсона и проверим его значимость – гипотезу о том, что истинное значение этого коэффициента (значение для всех генеральной совокупности, для всех актеров) равно 0:\n", "\n", "$$\n", "H_0: R = 0 \\text{ (линейной связи нет)}\n", "$$\n", "$$\n", "H_1: R \\ne 0 \\text{ (линейная связь есть)}\n", "$$" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(0.2415774891520072, 0.5013245713884127)" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" } ], "source": [ "stats.pearsonr(info[\"возраст\"], info[\"число лайков кт\"])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Эта функция возвращает нам два значения. Первое – это сам коэффициент Пирсона, он, действительно, положительный и не очень высокий. Второе – это p-value.  P-value здесь очень высокое, выше любого разумного уровня значимости (1%, 5%, 10%). Это значит, что у нас нет оснований отвергнуть гипотезу о равенстве истинного коэффициента корреляции нулю, что говорит об отсутствии связи. Но этот вывод довольно сомнительный, выборки в 10 наблюдений явно мало, чтобы выявить связь, если она действительно есть. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь давайте изучим взаимосвязь между возрастом актеров и числом лайков, которые поставили студенты Вышки разных специальностей:" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "info.plot.scatter(x = \"возраст\", y = \"число лайков ст\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Тут ситуация еще менее понятная, больше похоже на то, что связи нет. Но все-таки, если сравнивать с предыдущей диаграммой рассеивания, здесь график больше похож на иллюстрацию отрицательной, обратной, связи (хотя и очень слабой). То есть, у нас в исследовании все наоборот, более возрастным актерам лайки ставят реже. \n", "\n", "Вычислим коэффициент Пирсона и проверим наши догадки:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(-0.04849930401725569, 0.8941569687495946)" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "stats.pearsonr(info[\"возраст\"], info[\"число лайков ст\"])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Так и есть. Коэффициент отрицательный, но очень близок к 0, к тому же p-value говорит о том, что гипотезу от отстутствии связи отвергать не стоит." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В обоих случаях наши выводы нельзя представлять надежными. Выборки очень малы и результаты будут неточными. Более того, как обсуждалось на лекции, на малых выборках полученная оценка коэффициента чаще всего будет незначимой (связь есть, но маленький объем выборок не позволяет ее выявить, p-value будет высоким и гипотеза об отсутствии связи отвергаться не будет). Ровно это мы и наблюдали. \n", "\n", "Однако бывают и исключения: если связь между показателя действительно линейная и очень-очень сильная, оценка коэффициента окажется значимой даже на маленьких выборках. Например, если мы посмотрим на связь между возрастом и опытом работы в годах (на момент съемок фильма), мы обнаружим почти строгую линейную зависимость: " ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAX4AAAEGCAYAAABiq/5QAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4xLjEsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8QZhcZAAAUlUlEQVR4nO3dcYxdZ3nn8e9zk+nY6mSbiT1EliesIxKVVNSYapqN5C4qAVYp2xqo29JsS9M2lalEKuhGjYF/mm1pl3iBVGq77IZNwNsCKcuQdRSxLWkIpUgoZJw4kwS3okCAcbzxxDtePCt7GOc++8c9Q8fjGXvGnnPPHb/fjzS657z33Ps+PvL5zZlz3/ueyEwkSeVoNV2AJKm7DH5JKozBL0mFMfglqTAGvyQV5tKmC1iOjRs35pYtW5ouQ5LWlP3797+YmUML29dE8G/ZsoWxsbGmy5CkNSUivr1Yu5d6JKkwBr8kFcbgl6TCGPySVBiDX5IKY/BL0iKOTs/w1HePcXR6pulSVt2aGM4pSd2078Ahdo+O09dqMdtus2fnVnZs29x0WavGM35Jmufo9Ay7R8c5Odvm+MwpTs62uWN0/KI68zf4JWmeiakT9LVOj8a+VouJqRMNVbT6DH5Jmmd4cD2z7fZpbbPtNsOD6xuqaPUZ/JI0z4aBfvbs3Mq6vhaX9V/Kur4We3ZuZcNAf9OlrRo/3JWkBXZs28z2azYyMXWC4cH1F1XoQ43BHxHrgC8B/VU/n8nM34+Iq4H7gSuAJ4C3Z+b366pDks7HhoH+RgP/6PRMbb946jzjnwFuzMzpiOgDvhwR/wv498DdmXl/RPwX4FbgIzXWIUlrSt3DSWu7xp8d09VqX/WTwI3AZ6r2vcBb6qpBktaabgwnrfXD3Yi4JCIOAEeAh4FvAMcy81S1yQSw6K+xiNgVEWMRMTY5OVlnmZLUM7oxnLTW4M/MlzJzGzAMXA9ct9hmS7z2nswcycyRoaEzbiAjSRelbgwn7cpwzsw8BnwRuAG4PCLmPlsYBp7vRg2StBZ0YzhpnaN6hoDZzDwWEeuBNwB3AY8Cv0BnZM8twL66apCkutQ56qbu4aR1jurZBOyNiEvo/GXx6cx8KCK+BtwfEe8HngTurbEGSVp13ZjErc7hpLUFf2aOA69ZpP2bdK73S9KaM3/UzUk61+LvGB1n+zUb18wXvZyyQZJW4GKYxM3gl6QVuBgmcTP4JWkFLoZJ3JykTZJWaK1P4mbwS9J5aHoStwvhpR5JKozBL0mFMfglqTAGvyQVxuCXpMIY/JJUGINfkgpj8EtSYQx+SSqMwS9JhTH4JakwBr8kFcbgl6TCGPySVBiDX5IKY/BLUmEMfkkqTG3BHxFXRcSjEXEwIp6NiHdV7XdGxKGIOFD9vKmuGiRJZ6rz1oungNsz84mIuAzYHxEPV8/dnZkfrLFvSdISagv+zDwMHK6Wj0fEQWBzXf1JkpanK9f4I2IL8BrgsarptogYj4j7ImKwGzVIkjpqD/6IGABGgXdn5veAjwCvALbR+YvgQ0u8bldEjEXE2OTkZN1lSlIxag3+iOijE/qfyMzPAmTmC5n5Uma2gY8C1y/22sy8JzNHMnNkaGiozjIlqSh1juoJ4F7gYGZ+eF77pnmbvRV4pq4aJElnqnNUz3bg7cDTEXGgansfcHNEbAMSeA54R401SJIWqHNUz5eBWOSpz9XVpyTp3PzmriQVxuCXpMIY/JJUGINfkgpj8EtSYQx+SSqMwS9JhTH4JakwBr8kFcbgl6TCGPySVBiDX5IKY/BLUmEMfkkqjMEvSYUx+CWpMAa/JBXG4Jekwhj8klQYg1+SCmPwS1JhDH5JKozBL0mFqS34I+KqiHg0Ig5GxLMR8a6q/YqIeDgivl49DtZVgyTpTHWe8Z8Cbs/M64AbgHdGxI8B7wEeycxrgUeqdUlSl9QW/Jl5ODOfqJaPAweBzcCbgb3VZnuBt9RVgyTpTF25xh8RW4DXAI8BV2bmYej8cgBetsRrdkXEWESMTU5OdqNMSSpC7cEfEQPAKPDuzPzecl+Xmfdk5khmjgwNDdVXoCQVptbgj4g+OqH/icz8bNX8QkRsqp7fBBypswZJ0unqHNUTwL3Awcz88LynHgRuqZZvAfbVVYMk6UyX1vje24G3A09HxIGq7X3AB4BPR8StwHeAX6yxBknSArUFf2Z+GYglnn59Xf1Kks7Ob+5KUmEMfkkqjMEvSYUx+CWpMAa/JBXG4Jekwhj8klQYg1+SCmPwS1JhDH5JKozBL0mFMfglqTAGvyQVZlnBHxFP1F2IJKk7lnvGv9T0ypKkNWa58/H/aESMz1sPIDNzaw01SZJqtNzg/xbwc3UWIknqjuUG//cz89u1ViJJ6orlXuP/nVqrkCR1zXLP+F8fETcubMzMP1jleiRJNVtu8E/PW04c5SNJa9aygj8zPwQQEdcCdwJ9wB/XV5YkqS4r/ebufwa+AHwS+K+rX44kqW4rDf4NmXlvZv5P4Ptn2zAi7ouIIxHxzLy2OyPiUEQcqH7edD5FS5LO37Iu9UTEz1eLl0fEW+n8wrjiHC/7OPBnwH9f0H53Zn5wJUVKklbPcj/cnfvy1t8BO6rlr57tBZn5pYjYcn5lSZLqstwPd39jFfu8LSJ+DRgDbs/MqcU2iohdwC6Al7/85avYvSSVLTLz3BtF3LdYe2b+5jletwV4KDNfVa1fCbxIZ0joHwKbzvUeACMjIzk2NnbOOiVJ/ywi9mfmyML25V7q+Wng9y60iMx8YV5BHwUeutD3lCStzHKD//9m5uiFdhYRmzLzcLX6VuCZs20vSVp9yw3+c18PWiAiPkXnL4WNETEB/D7w0xGxrXq/54B3rPR9JUkXZrnB/8qVzsefmTcv0nzvSoqTJK2+5Qb/dcAg8K+r9S8Bx2qpSJJUq+V+c/fNwF8AG4GhannHWV8hSepJyz3j/y3ghsz8fwARcRfwFeBP6ypMklSPldxs/aV56y/h1MyStCYt94z/Y8BjEfFAtf4W/KBWWrGj0zNMTJ1geHA9Gwb6my5HhVrulA0fjogvAj9F50z/NzLzyToLky42+w4cYvfoOH2tFrPtNnt2bmXHts1Nl6UCLfeMn8x8Aniixlqki9bR6Rl2j45zcrbNSdoA3DE6zvZrNnrmr65b6Xz8ks7DxNQJ+lqnH259rRYTUycaqkglM/ilLhgeXM9su31a22y7zfDg+oYqUskMfqkLNgz0s2fnVtb1tbis/1LW9bXYs3Orl3nUiGVf45d0YXZs28z2azY6qkeNM/ilLtow0G/gq3Fe6pGkwhj8klQYg1+SCmPwS1JhDH5JKozBL0mFMfglqTAGvyQVxuCXpMIY/JJUGINfkgpTW/BHxH0RcSQinpnXdkVEPBwRX68eB+vqX5K0uDrP+D8O3LSg7T3AI5l5LfBItS5J6qLagj8zvwT8nwXNbwb2Vst76dy0XZLURd2+xn9lZh4GqB5fttSGEbErIsYiYmxycrJrBUrSxa5nP9zNzHsycyQzR4aGhpouR5IuGt0O/hciYhNA9Xiky/1LUvG6HfwPArdUy7cA+7rcvyQVr87hnJ8CvgL8aERMRMStwAeAN0bE14E3VuvSOR2dnuGp7x7j6PRM06VIa15t99zNzJuXeOr1dfWpi9O+A4fYPTpOX6vFbLvNnp1b2bFtc9NlSWtWz364K0HnTH/36DgnZ9scnznFydk2d4yOe+YvXQCDXz1tYuoEfa3T/5v2tVpMTJ1oqCJp7TP41dOGB9cz226f1jbbbjM8uL6hiqS1z+BXT9sw0M+enVtZ19fisv5LWdfXYs/OrWwY6G+6NGnNqu3DXWm17Ni2me3XbGRi6gTDg+sNfekCGfxaEzYM9Bv40irxUo8kFcbgl6TCGPySVBiDX5IKY/BLUmEMfkkqjMEvSYUx+CWpMAa/JBXG4Jekwhj8klQYg1+SCmPwS1JhDH5JKozBL0mFMfglqTAGvyQVppE7cEXEc8Bx4CXgVGaONFHHajg6PVP7LQG70Ucv9y9pdTV568XXZeaLDfZ/wfYdOMTu0XH6Wi1m22327NzKjm2b11wfvdy/pNXnpZ7zdHR6ht2j45ycbXN85hQnZ9vcMTrO0emZNdVHL/cvqR5NBX8Cn4+I/RGxa7ENImJXRIxFxNjk5GSXyzu3iakT9LVO3319rRYTUyfWVB+93L+kejQV/Nsz8yeAnwHeGRGvXbhBZt6TmSOZOTI0NNT9Cs9heHA9s+32aW2z7TbDg+vXVB+93L+kejQS/Jn5fPV4BHgAuL6JOi7EhoF+9uzcyrq+Fpf1X8q6vhZ7dm5d1Q8/u9FHL/cvqR6Rmd3tMOKHgVZmHq+WHwb+IDP/eqnXjIyM5NjYWNdqXAlH9UjqVRGxf7FRk02M6rkSeCAi5vr/5NlCv9dtGOivPQy70Ucv9y9pdXU9+DPzm8Cru92vJKnD4ZySVBiDX5IKY/BLUmEMfkkqjMEvSYUx+CWpMAa/JBXG4Jekwhj8klQYg1+SCmPwS1JhDH5JKozBL0mFMfglqTAGvyQVxuCXpMIUHfxHp2d46rvHODo903QpktQ1Tdx6sSfsO3CI3aPj9LVazLbb7Nm5lR3bNjddliTVrsgz/qPTM+weHefkbJvjM6c4OdvmjtFxz/wlFaHI4J+YOkFf6/R/el+rxcTUiYYqkqTuKTL4hwfXM9tun9Y2224zPLi+oYokqXuKDP4NA/3s2bmVdX0tLuu/lHV9Lfbs3MqGgf6mS5Ok2hX74e6ObZvZfs1GJqZOMDy43tCXVIxGzvgj4qaI+MeI+KeIeE9d/ZxruOaGgX5efdXlhr6konT9jD8iLgH+HHgjMAE8HhEPZubXVrMfh2tK0uKaOOO/HvinzPxmZn4fuB9482p24HBNSVpaE8G/GfjuvPWJqu00EbErIsYiYmxycnJFHThcU5KW1kTwxyJteUZD5j2ZOZKZI0NDQyvqwOGakrS0JoJ/Arhq3vow8PxqduBwTUlaWhPDOR8Hro2Iq4FDwC8D/261O3G4piQtruvBn5mnIuI24G+AS4D7MvPZOvraMNBv4EvSAo18gSszPwd8rom+Jal0RU7ZIEklM/glqTAGvyQVxuCXpMJE5hnfneo5ETEJfLvpOs5iI/Bi00WcgzWuDmtcHWuhRlgbdZ6txn+ZmWd8A3ZNBH+vi4ixzBxpuo6zscbVYY2rYy3UCGujzvOp0Us9klQYg1+SCmPwr457mi5gGaxxdVjj6lgLNcLaqHPFNXqNX5IK4xm/JBXG4Jekwhj8KxARV0XEoxFxMCKejYh3Ve1XRMTDEfH16nGwB2u8MyIORcSB6udNTdVY1bMuIr4aEU9Vdf6Hqv3qiHis2pd/FRE/1IM1fjwivjVvX25rqsZ5tV4SEU9GxEPVes/sx7PU2FP7MSKei4inq1rGqraeObbPUuOKj22Df2VOAbdn5nXADcA7I+LHgPcAj2TmtcAj1Xqv1Qhwd2Zuq36anh11BrgxM18NbANuiogbgLvo1HktMAXc2oM1AvzevH15oLkSf+BdwMF56720H+csrBF6bz++rqplblx8Lx3bcxbWCCs8tg3+FcjMw5n5RLV8nM5/4s10bha/t9psL/CWZio8a409JTumq9W+6ieBG4HPVO1N78ulauwpETEM/Fvgv1XrQQ/tRzizxjWkZ47t1WTwn6eI2AK8BngMuDIzD0MneIGXNVfZP1tQI8BtETEeEfc1/Scr/OBP/wPAEeBh4BvAscw8VW0yQcO/tBbWmJlz+/KPqn15d0Q0fbefPwHuAOZuNL2BHtuPnFnjnF7ajwl8PiL2R8Suqq3Xju3FaoQVHtsG/3mIiAFgFHh3Zn6v6XoWs0iNHwFeQeeSxWHgQw2WB0BmvpSZ2+jcd/l64LrFNutuVQs6X1BjRLwKeC/wSuAngSuA3U3VFxE/CxzJzP3zmxfZtLH9uESN0EP7sbI9M38C+Bk6l0hf23A9i1msxhUf2wb/CkVEH51A/URmfrZqfiEiNlXPb6JzdtiYxWrMzBeqEGsDH6UTtD0hM48BX6TzmcTlETF3Z7hh4Pmm6ppvXo03VZfTMjNngI/R7L7cDuyIiOeA++lc4vkTems/nlFjRPxlj+1HMvP56vEI8EBVT08d24vVeD7HtsG/AtW103uBg5n54XlPPQjcUi3fAuzrdm1zlqpx7j9v5a3AM92ubb6IGIqIy6vl9cAb6Hwe8SjwC9VmTe/LxWr8h3lBEHSu+Ta2LzPzvZk5nJlbgF8GvpCZv0IP7cclavzVXtqPEfHDEXHZ3DLwb6p6eunYXrTG8zm2G7nn7hq2HXg78HR13RfgfcAHgE9HxK3Ad4BfbKg+WLrGm6vhcgk8B7yjmfJ+YBOwNyIuoXMC8unMfCgivgbcHxHvB56k80us12r8QkQM0bmkcgD47QZrXMpuemc/LuUTPbQfrwQe6PwO4lLgk5n51xHxOL1zbC9V41+s9Nh2ygZJKoyXeiSpMAa/JBXG4Jekwhj8klQYg1+SCmPwS1JhDH5JKozBr+JExJaIOFHNXf7NiPhgdPyniHimmu/8bdW2WyNiLDrzyD8eEa+s2p+LiLuiM1//VyPimqr956IzD/6TEfG3EXFl1T4QER+r3ns8InZGxO9WNXwnIiar5bU2e6XWIL/ApeJUs5Y+lJmvqoL5WTrfdvxt4CZgI/A48K/mZmasXvfHdI6Z91bzznw0M/8oIn4N+KXM/NlqZsRjmZkR8VvAdZl5e0TcBfRn5rur9xrMzKlq+deBkcy8rSs7QMVzygaV6hXVlBZXAx8Efgr4VGa+RGdirr+jM2vkg9G5o9GfAy/RmRVxzqfmPd5dLQ8Df1XNn/JDwLeq9jfQmacGgLnQl5rgpR6V6hvVdMubgJuBf7HUhpn5ucy8ms58N/NvxJGLLP8p8GeZ+eN0/opYV7UHPXgTF5XJ4FfpZuicyX8beFt0brwyBLwW+GpE/Mi8bU8Cr5q3/rZ5j1+pln8EOFQt3zJv288DP7iUs5ybZUh1MfhVqrlLPc/QmcL4D4Fx4CngC8Admfm/6cwd/3REPA38EvAf571Hf0Q8Rudesr9btd0J/I+I+HvgxXnbvh8YrD48fgp4XX3/NOns/HBXOg/Vh7sjmfniubaVeo1n/JJUGM/4JakwnvFLUmEMfkkqjMEvSYUx+CWpMAa/JBXm/wMCv09dCL2QuAAAAABJRU5ErkJggg==\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "info.plot.scatter(x = \"возраст\", y = \"опыт\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Коэффициент Пирсона должен получиться очень близким к 1 (сильная линейная связь), а p-value, наоборот, очень близким к 0 (данные не подтверждают нулевую гипотезу об отсутствии связи, жизнеспособность такой гипотезы почти нулевая).\n", "\n", "Проверим!" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(0.9820134294625925, 4.480915204632377e-07)" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "stats.pearsonr(info[\"возраст\"], info[\"опыт\"])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Так и есть, коэффициент корреляции Пирсона равен 0.98, почти строгая линейная взаимосвязь. При этом p-value примерно 0, более точно оно равно $4.48 \\times 10^{-7}$. Значит, гипотеза об отсутствии линейной связи отвергается, связь есть, и она прямая. Чем выше возраст актера, тем больше у него опыта, что более чем логично." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 2 }