{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Когнитивные технологии\n", "\n", "*Алла Тамбовцева, НИУ ВШЭ*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Оценка связи между переменными, измеренными в разных шкалах" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Немного про шкалы измерения данных\n", "\n", "Выделяют четыре основных типа шкал:\n", "\n", "* Качественная (номинальная) шкала\n", "* Порядковая (ординальная) шкала\n", "* Абсолютная шкала (шкала отношений)\n", "* Интервальная шкала\n", "\n", "Два последних типа часто объединяют и называют *количественной шкалой*. Позволю себе здесь сослаться на [статью](https://ru.wikipedia.org/wiki/%D0%A8%D0%BA%D0%B0%D0%BB%D0%B0) в Википедии, там приведено достаточно подробное описание шкал с примерами." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Оценка связи между переменными в качественной шкале\n", "\n", "Для оценки связи между двумя переменными в качественной (номинальной) шкале используются таблицы сопряжённости (*contingency tables*) и критерий хи-квадрат. Оценим связь между двумя показателями из таблицы, содержащей результаты опроса студентов 1 курса НИУ ВШЭ (ОП «Политология»). Опрос был учебным, но с социолингвистическим уклоном: как жители разных регионов называют различные предметы и какие выражения используют. \n", "\n", "Идея опроса была навеяна спором на кафедре о том, как называть замазку/корректор/штрих и продолжившимся ещё более жарким спором, как продолжить фразу «жадина-говядина – ...». Оказалось, что коллеги из Москвы не использовали вариант «Жадина-говядина – солёный огурец, на полу валяется, никто его не ест», а коллеги не из Москвы никогда не слышали вариант «Жадина-говядина – турецкий барабан, кто на нём играет, тот рыжий таракан». Студентам опрос пришёлся по душе, правда, в какое-то более серьёзное исследование это не переросло.\n", "\n", "На сами вопросы можно посмотреть [здесь](https://github.com/allatambov/R-programming-3/blob/master/exam-23-03/soc_ling_form.pdf).\n", "\n", "Импортируем библиотеку `pandas` и загрузим файл по ссылке:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "df = pd.read_csv(\"https://raw.githubusercontent.com/allatambov/R-programming-3/master/exam-23-03/soc_ling.csv\",\n", " encoding=\"UTF-8\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Посмотрим на первые строки таблицы:" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0idgenderageplaceregionX1X2X3X4X5X6X7X8X9X10contsokrugmoscow
011Женский19МоскваМосквазамазка/штрихластик/стерка/резинкаштрихтреугольникластикскакалкиштрихчайникфлешкасоленый огурецсоленый огурецЦентральныйTrue
122Женский18АнгарскИркутская областьзамазкаластикзамазкаугольникластикскакалказамазкачайникфлешкаПустая шоколадинатурецкий барабанСибирскийFalse
233Женский18МоскваМосквазамазкаластиккорректорлинейкаластикскакалкакорректорчайникфлэшкаСоленый огурецсоленый огурецЦентральныйTrue
344Женский18ТираспольМолдавиякорректорластиккорректорлинейкаластикскакалкакорректорчайникфлешкаСоленый огурецсоленый огурецЗарубежные территорииFalse
455Женский19ВологдаВологодская областькорректорластиккорректорлинейка (или угольник)ластикскакалкакорректорчайникфлешкаВ попе шоколадинашоколадинаСеверо-ЗападныйFalse
\n", "
" ], "text/plain": [ " Unnamed: 0 id gender age place region \\\n", "0 1 1 Женский 19 Москва Москва \n", "1 2 2 Женский 18 Ангарск Иркутская область \n", "2 3 3 Женский 18 Москва Москва \n", "3 4 4 Женский 18 Тирасполь Молдавия \n", "4 5 5 Женский 19 Вологда Вологодская область \n", "\n", " X1 X2 X3 X4 \\\n", "0 замазка/штрих ластик/стерка/резинка штрих треугольник \n", "1 замазка ластик замазка угольник \n", "2 замазка ластик корректор линейка \n", "3 корректор ластик корректор линейка \n", "4 корректор ластик корректор линейка (или угольник) \n", "\n", " X5 X6 X7 X8 X9 X10 \\\n", "0 ластик скакалки штрих чайник флешка соленый огурец \n", "1 ластик скакалка замазка чайник флешка Пустая шоколадина \n", "2 ластик скакалка корректор чайник флэшка Соленый огурец \n", "3 ластик скакалка корректор чайник флешка Соленый огурец \n", "4 ластик скакалка корректор чайник флешка В попе шоколадина \n", "\n", " conts okrug moscow \n", "0 соленый огурец Центральный True \n", "1 турецкий барабан Сибирский False \n", "2 соленый огурец Центральный True \n", "3 соленый огурец Зарубежные территории False \n", "4 шоколадина Северо-Западный False " ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Построим таблицу сопряжённости для переменных `conts` (нормализованное продолжение фразы «жадина-говядина – ...») и `region` (родной регион респондента)." ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
regionАлтайский крайБелгородская областьВолгоградская областьВологодская областьИркутская областьКалужская областьМолдавияМолдоваМоскваМосковская область...Приморский крайРеспублика КомиРеспублика Саха (Якутия)Самарская областьСвердловская областьТверская областьУзбекистанХМАО-ЮграХабаровский крайЦО, Москва
conts
другое0000000120...1000000000
соленый огурец11200110154...0102011111
турецкий барабан0000100090...0000000000
турецкий барабан/соленый огурец0000000020...0000000000
шоколадина0001000000...0030100000
\n", "

5 rows × 22 columns

\n", "
" ], "text/plain": [ "region Алтайский край Белгородская область \\\n", "conts \n", "другое 0 0 \n", "соленый огурец 1 1 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 0 0 \n", "\n", "region Волгоградская область Вологодская область \\\n", "conts \n", "другое 0 0 \n", "соленый огурец 2 0 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 0 1 \n", "\n", "region Иркутская область Калужская область \\\n", "conts \n", "другое 0 0 \n", "соленый огурец 0 1 \n", "турецкий барабан 1 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 0 0 \n", "\n", "region Молдавия Молдова Москва \\\n", "conts \n", "другое 0 1 2 \n", "соленый огурец 1 0 15 \n", "турецкий барабан 0 0 9 \n", "турецкий барабан/соленый огурец 0 0 2 \n", "шоколадина 0 0 0 \n", "\n", "region Московская область ... \\\n", "conts ... \n", "другое 0 ... \n", "соленый огурец 4 ... \n", "турецкий барабан 0 ... \n", "турецкий барабан/соленый огурец 0 ... \n", "шоколадина 0 ... \n", "\n", "region Приморский край Республика Коми \\\n", "conts \n", "другое 1 0 \n", "соленый огурец 0 1 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 0 0 \n", "\n", "region Республика Саха (Якутия) Самарская область \\\n", "conts \n", "другое 0 0 \n", "соленый огурец 0 2 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 3 0 \n", "\n", "region Свердловская область Тверская область \\\n", "conts \n", "другое 0 0 \n", "соленый огурец 0 1 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 1 0 \n", "\n", "region Узбекистан ХМАО-Югра Хабаровский край \\\n", "conts \n", "другое 0 0 0 \n", "соленый огурец 1 1 1 \n", "турецкий барабан 0 0 0 \n", "турецкий барабан/соленый огурец 0 0 0 \n", "шоколадина 0 0 0 \n", "\n", "region ЦО, Москва \n", "conts \n", "другое 0 \n", "соленый огурец 1 \n", "турецкий барабан 0 \n", "турецкий барабан/соленый огурец 0 \n", "шоколадина 0 \n", "\n", "[5 rows x 22 columns]" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.crosstab(df.conts, df.region)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Таблица сопряжённости – таблица совместных частот. Например, по таблице выше мы можем выяснить, что чаще всего фразу «жадина-говядина» с «турецким барабаном», действительно, используют студенты из Москвы (9), а один студент из Вологодской области, один студент из Иркутской области и три студента из Якутии предложили вариант со словом «шоколадина». \n", "\n", "С такой таблицей работать будет неудобно и не совсем корректно: слишком много ячеек с нулевыми и маленькими частотами. Чтобы этого избежать, укрупним категории, например, объединим все регионы в федеральные округа." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array(['Москва', 'Иркутская область', 'Молдавия', 'Вологодская область',\n", " 'Белгородская область', 'Свердловская область',\n", " 'Московская область', 'Калужская область',\n", " 'Республика Саха (Якутия)', 'Самарская область', 'Приморский край',\n", " 'Тверская область', 'ЦО, Москва', 'Узбекистан', 'Республика Коми',\n", " 'Молдова', 'Пермский край', 'Хабаровский край', 'ХМАО-Югра',\n", " 'Новосибирская область', 'Алтайский край', 'Волгоградская область'],\n", " dtype=object)" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.region.unique() # все уникальные значения регионов в таблице" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Напишем функцию, которая будет приписывать регион к федеральному округу (для простоты возьмём только те регионы, которые есть в `df`) и создадим новый столбец `okrug`:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "def get_okrug(x):\n", " \n", " Cent = ['Белгородская область', 'Тверская область', 'ЦО, Москва', 'Москва', \n", " 'Московская область', 'Калужская область']\n", " NoWest = ['Вологодская область', 'Республика Коми']\n", " South = ['Волгоградская область']\n", " Privolzh = ['Самарская область', 'Пермский край']\n", " Ural = ['Свердловская область', 'ХМАО-Югра']\n", " Sibir = ['Алтайский край', 'Новосибирская область', 'Иркутская область']\n", " DEast = ['Республика Саха (Якутия)', 'Хабаровский край', 'Приморский край']\n", " Out = ['Молдавия', 'Молдова', 'Узбекистан']\n", " \n", " if x in Cent:\n", " ok = 'Центральный'\n", " if x in NoWest:\n", " ok = 'Северо-Западный'\n", " if x in South:\n", " ok = 'Южный'\n", " if x in Privolzh:\n", " ok = 'Приволжский'\n", " if x in Ural:\n", " ok = 'Уральский'\n", " if x in Sibir:\n", " ok = 'Сибирский'\n", " if x in DEast:\n", " ok = 'Дальневосточный'\n", " if x in Out:\n", " ok = \"Зарубежные территории\"\n", " return ok\n", "\n", "df['okrug'] = df.region.apply(get_okrug)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0idgenderageplaceregionX1X2X3X4X5X6X7X8X9X10contsokrug
011Женский19МоскваМосквазамазка/штрихластик/стерка/резинкаштрихтреугольникластикскакалкиштрихчайникфлешкасоленый огурецсоленый огурецЦентральный
122Женский18АнгарскИркутская областьзамазкаластикзамазкаугольникластикскакалказамазкачайникфлешкаПустая шоколадинатурецкий барабанСибирский
233Женский18МоскваМосквазамазкаластиккорректорлинейкаластикскакалкакорректорчайникфлэшкаСоленый огурецсоленый огурецЦентральный
344Женский18ТираспольМолдавиякорректорластиккорректорлинейкаластикскакалкакорректорчайникфлешкаСоленый огурецсоленый огурецЗарубежные территории
455Женский19ВологдаВологодская областькорректорластиккорректорлинейка (или угольник)ластикскакалкакорректорчайникфлешкаВ попе шоколадинашоколадинаСеверо-Западный
\n", "
" ], "text/plain": [ " Unnamed: 0 id gender age place region \\\n", "0 1 1 Женский 19 Москва Москва \n", "1 2 2 Женский 18 Ангарск Иркутская область \n", "2 3 3 Женский 18 Москва Москва \n", "3 4 4 Женский 18 Тирасполь Молдавия \n", "4 5 5 Женский 19 Вологда Вологодская область \n", "\n", " X1 X2 X3 X4 \\\n", "0 замазка/штрих ластик/стерка/резинка штрих треугольник \n", "1 замазка ластик замазка угольник \n", "2 замазка ластик корректор линейка \n", "3 корректор ластик корректор линейка \n", "4 корректор ластик корректор линейка (или угольник) \n", "\n", " X5 X6 X7 X8 X9 X10 \\\n", "0 ластик скакалки штрих чайник флешка соленый огурец \n", "1 ластик скакалка замазка чайник флешка Пустая шоколадина \n", "2 ластик скакалка корректор чайник флэшка Соленый огурец \n", "3 ластик скакалка корректор чайник флешка Соленый огурец \n", "4 ластик скакалка корректор чайник флешка В попе шоколадина \n", "\n", " conts okrug \n", "0 соленый огурец Центральный \n", "1 турецкий барабан Сибирский \n", "2 соленый огурец Центральный \n", "3 соленый огурец Зарубежные территории \n", "4 шоколадина Северо-Западный " ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь построим таблицу сопряжёенности для переменных `conts` и `okrug`:" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
okrugДальневосточныйЗарубежные территорииПриволжскийСеверо-ЗападныйСибирскийУральскийЦентральныйЮжный
conts
другое11000020
соленый огурец122121232
турецкий барабан00001090
турецкий барабан/соленый огурец00000020
шоколадина30110100
\n", "
" ], "text/plain": [ "okrug Дальневосточный Зарубежные территории \\\n", "conts \n", "другое 1 1 \n", "соленый огурец 1 2 \n", "турецкий барабан 0 0 \n", "турецкий барабан/соленый огурец 0 0 \n", "шоколадина 3 0 \n", "\n", "okrug Приволжский Северо-Западный Сибирский \\\n", "conts \n", "другое 0 0 0 \n", "соленый огурец 2 1 2 \n", "турецкий барабан 0 0 1 \n", "турецкий барабан/соленый огурец 0 0 0 \n", "шоколадина 1 1 0 \n", "\n", "okrug Уральский Центральный Южный \n", "conts \n", "другое 0 2 0 \n", "соленый огурец 1 23 2 \n", "турецкий барабан 0 9 0 \n", "турецкий барабан/соленый огурец 0 2 0 \n", "шоколадина 1 0 0 " ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "table = pd.crosstab(df.conts, df.okrug)\n", "table" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь сформируем из обычной таблицы сопряжённости объект типа `Table` из модуля `stats` библиотеки `statsmodels`, чтобы на её основе можно было проверять гипотезу о независимости двух признаков (переменных в качественной шкале)." ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [], "source": [ "from statsmodels.api import stats\n", "cont_table = stats.Table(table)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "При выявлении связи между качественными признаками выдвигается следующая нулевая гипотеза: \n", "$$\n", "H_0: \\text{признаки независимы (связи нет)}.\n", "$$\n", "\n", "Соответственно, альтернативная гипотеза:\n", "\n", "$$\n", "H_1: \\text{признаки не являются независимыми (связь есть)}.\n", "$$\n", "\n", "Как происходит проверка такой нулевой гипотезы? Сравниваются частоты, полученные на основе имеющихся данных (которые мы видели в таблице выше) и ожидаемые частоты – частоты, которые имели бы место, если нулевая гипотеза была бы верна. Считаются разности между наблюдаемыми и ожидаемыми частотами, возводятся в квадрат, чтобы учесть отклонения в обе стороны, и нормируются. Далее определяется сумма этих нормированных квадратов разностей (она имеет распределение [хи-квадрат](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82) с числом степеней свободы равным $(nrows-1)(ncols-1)$), и оценивается, является ли полученное значение типичным для такого распределения хи-квадрат в случае, если нулевая гипотеза верна. \n", "\n", "Посмотрим на ожидаемые частоты:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
okrugДальневосточныйЗарубежные территорииПриволжскийСеверо-ЗападныйСибирскийУральскийЦентральныйЮжный
conts
другое0.7894740.5789470.5789470.4736840.5789470.4736844.0526320.473684
соленый огурец3.7500002.7500002.7500002.2500002.7500002.25000019.2500002.250000
турецкий барабан1.3815791.0131581.0131580.8289471.0131580.8289477.0921050.828947
турецкий барабан/соленый огурец0.5921050.4342110.4342110.3552630.4342110.3552633.0394740.355263
шоколадина0.9868420.7236840.7236840.5921050.7236840.5921055.0657890.592105
\n", "
" ], "text/plain": [ "okrug Дальневосточный Зарубежные территории \\\n", "conts \n", "другое 0.789474 0.578947 \n", "соленый огурец 3.750000 2.750000 \n", "турецкий барабан 1.381579 1.013158 \n", "турецкий барабан/соленый огурец 0.592105 0.434211 \n", "шоколадина 0.986842 0.723684 \n", "\n", "okrug Приволжский Северо-Западный Сибирский \\\n", "conts \n", "другое 0.578947 0.473684 0.578947 \n", "соленый огурец 2.750000 2.250000 2.750000 \n", "турецкий барабан 1.013158 0.828947 1.013158 \n", "турецкий барабан/соленый огурец 0.434211 0.355263 0.434211 \n", "шоколадина 0.723684 0.592105 0.723684 \n", "\n", "okrug Уральский Центральный Южный \n", "conts \n", "другое 0.473684 4.052632 0.473684 \n", "соленый огурец 2.250000 19.250000 2.250000 \n", "турецкий барабан 0.828947 7.092105 0.828947 \n", "турецкий барабан/соленый огурец 0.355263 3.039474 0.355263 \n", "шоколадина 0.592105 5.065789 0.592105 " ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "cont_table.fittedvalues" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "А теперь на остатки – стандартизированные разности между наблюдаемыми и ожидаемыми частотами (имеют стандартное нормальное распределение):" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
okrugДальневосточныйЗарубежные территорииПриволжскийСеверо-ЗападныйСибирскийУральскийЦентральныйЮжный
conts
другое0.7996711.210500-0.1037570.038236-0.1037570.038236-0.7712580.038236
соленый огурец-1.161895-0.150756-0.150756-0.500000-0.150756-0.5000000.9686650.166667
турецкий барабан-0.750021-0.509815-0.509815-0.3612960.483670-0.3612960.904170-0.361296
турецкий барабан/соленый огурец-0.1196970.0998400.0998400.2428310.0998400.242831-0.3094360.242831
шоколадина2.529857-0.2629420.9125651.179875-0.2629421.179875-2.028581-0.119697
\n", "
" ], "text/plain": [ "okrug Дальневосточный Зарубежные территории \\\n", "conts \n", "другое 0.799671 1.210500 \n", "соленый огурец -1.161895 -0.150756 \n", "турецкий барабан -0.750021 -0.509815 \n", "турецкий барабан/соленый огурец -0.119697 0.099840 \n", "шоколадина 2.529857 -0.262942 \n", "\n", "okrug Приволжский Северо-Западный Сибирский \\\n", "conts \n", "другое -0.103757 0.038236 -0.103757 \n", "соленый огурец -0.150756 -0.500000 -0.150756 \n", "турецкий барабан -0.509815 -0.361296 0.483670 \n", "турецкий барабан/соленый огурец 0.099840 0.242831 0.099840 \n", "шоколадина 0.912565 1.179875 -0.262942 \n", "\n", "okrug Уральский Центральный Южный \n", "conts \n", "другое 0.038236 -0.771258 0.038236 \n", "соленый огурец -0.500000 0.968665 0.166667 \n", "турецкий барабан -0.361296 0.904170 -0.361296 \n", "турецкий барабан/соленый огурец 0.242831 -0.309436 0.242831 \n", "шоколадина 1.179875 -2.028581 -0.119697 " ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" } ], "source": [ "cont_table.resid_pearson" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если большинство остатков выходят за границы типичных для стандартной нормальной величины значений (обычно таковыми считают значения от $-2$ до $2$), то это может служить основанием для отвержения нулевой гипотезы о независимости признаков. Здесь такого не наблюдается. Убедимся в выводе, определив p-value явно:" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.7460857589281362" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" } ], "source": [ "res = cont_table.test_nominal_association()\n", "res.pvalue" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Действительно, на любом конвенциональном уровне значимости (5%, 10%, 1%) нет оснований отвергнуть нулевую гипотезу. То, как студент продолжает фразу «Жадина-говядина» не связано с тем, в каком федеральном округе он жил больше всего. Проверим то же самое, но не для всех округов, а конкретно для разделения *Москва-не Москва*." ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0idgenderageplaceregionX1X2X3X4X5X6X7X8X9X10contsokrugmoscow
011Женский19МоскваМосквазамазка/штрихластик/стерка/резинкаштрихтреугольникластикскакалкиштрихчайникфлешкасоленый огурецсоленый огурецЦентральныйTrue
122Женский18АнгарскИркутская областьзамазкаластикзамазкаугольникластикскакалказамазкачайникфлешкаПустая шоколадинатурецкий барабанСибирскийFalse
233Женский18МоскваМосквазамазкаластиккорректорлинейкаластикскакалкакорректорчайникфлэшкаСоленый огурецсоленый огурецЦентральныйTrue
344Женский18ТираспольМолдавиякорректорластиккорректорлинейкаластикскакалкакорректорчайникфлешкаСоленый огурецсоленый огурецЗарубежные территорииFalse
455Женский19ВологдаВологодская областькорректорластиккорректорлинейка (или угольник)ластикскакалкакорректорчайникфлешкаВ попе шоколадинашоколадинаСеверо-ЗападныйFalse
\n", "
" ], "text/plain": [ " Unnamed: 0 id gender age place region \\\n", "0 1 1 Женский 19 Москва Москва \n", "1 2 2 Женский 18 Ангарск Иркутская область \n", "2 3 3 Женский 18 Москва Москва \n", "3 4 4 Женский 18 Тирасполь Молдавия \n", "4 5 5 Женский 19 Вологда Вологодская область \n", "\n", " X1 X2 X3 X4 \\\n", "0 замазка/штрих ластик/стерка/резинка штрих треугольник \n", "1 замазка ластик замазка угольник \n", "2 замазка ластик корректор линейка \n", "3 корректор ластик корректор линейка \n", "4 корректор ластик корректор линейка (или угольник) \n", "\n", " X5 X6 X7 X8 X9 X10 \\\n", "0 ластик скакалки штрих чайник флешка соленый огурец \n", "1 ластик скакалка замазка чайник флешка Пустая шоколадина \n", "2 ластик скакалка корректор чайник флэшка Соленый огурец \n", "3 ластик скакалка корректор чайник флешка Соленый огурец \n", "4 ластик скакалка корректор чайник флешка В попе шоколадина \n", "\n", " conts okrug moscow \n", "0 соленый огурец Центральный True \n", "1 турецкий барабан Сибирский False \n", "2 соленый огурец Центральный True \n", "3 соленый огурец Зарубежные территории False \n", "4 шоколадина Северо-Западный False " ] }, "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df['moscow'] = df.region == 'Москва'\n", "df.head()" ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [], "source": [ "tt = pd.crosstab(df.moscow, df.conts)\n", "cont_table2 = stats.Table(tt)" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.012555970911947822" ] }, "execution_count": 50, "metadata": {}, "output_type": "execute_result" } ], "source": [ "cont_table2.test_nominal_association().pvalue" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В данном случае на имеющихся данных у нас есть основания отвергнуть нулевую гипотезу о независимости признаков на 5% уровне значимости (`pvalue<0.05`). Следовательно, можем считать, что тот факт, из Москвы студент или нет, влияет на то, какую форму продолжения фразы о жадине он выбирает." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Оценка связи между переменными в порядковой и количественной шкале " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В теоретической части была подробно описана методика расчёта коэффициентов корреляции Пирсона и Спирмена, а также критерии их применимости, поэтому давайте просто посмотрим, как их вычислять с помощью библиотеки `scipy`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Загрузим уже знакомый по первой части специализации файл с оценками студентов `scores2.csv`:" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [], "source": [ "data = pd.read_csv(\"https://raw.githubusercontent.com/allatambov/CognTech/master/2-python-libraries/scores2.csv\")" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idcatpsmstatsoceconengpolthmstat2phistlawphilpolsocptheopregcomppgamewpolmale
0М141БПЛТЛ024798898108.07997.088.06101
1М141БПЛТЛ03181010101010109.0910109.088.09101
2М141БПЛТЛ0759991091098.091099.088.0791
3М141БПЛТЛ017998899106.09998.088.0890
4М141БПЛТЛ06910101010101098.081097.065.08101
\n", "
" ], "text/plain": [ " id catps mstat soc econ eng polth mstat2 phist law \\\n", "0 М141БПЛТЛ024 7 9 8 8 9 8 10 8.0 7 \n", "1 М141БПЛТЛ031 8 10 10 10 10 10 10 9.0 9 \n", "2 М141БПЛТЛ075 9 9 9 10 9 10 9 8.0 9 \n", "3 М141БПЛТЛ017 9 9 8 8 9 9 10 6.0 9 \n", "4 М141БПЛТЛ069 10 10 10 10 10 10 9 8.0 8 \n", "\n", " phil polsoc ptheo preg compp game wpol male \n", "0 9 9 7.0 8 8.0 6 10 1 \n", "1 10 10 9.0 8 8.0 9 10 1 \n", "2 10 9 9.0 8 8.0 7 9 1 \n", "3 9 9 8.0 8 8.0 8 9 0 \n", "4 10 9 7.0 6 5.0 8 10 1 " ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Рассчитаем коэффициент корреляции Пирсона между оценками студентов по математике (`mstat`) и статистике (`mstat2`)." ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [], "source": [ "import scipy.stats as st" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(0.7679923219060808, 8.027789126694679e-13)" ] }, "execution_count": 55, "metadata": {}, "output_type": "execute_result" } ], "source": [ "st.pearsonr(data.mstat, data.mstat2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Вспомним, какая гипотеза проверяется при реализации формального критерия: \n", "\n", "$H_0:\\rho=0$ (связи нет, коэффициент корреляции не является статистически значимым)\n", "\n", "$H_1:\\rho \\ne0$ (связь есть, коэффцициент корреляции является статистически значимым)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Интерпретация:* связь положительная и сильная, нулевая гипотеза о незначимости коэффициента корреляции отвергается (на любом конвенциональном уровне значимости), есть значимая связь между оценками по двум частям курса «Математика и статистика»." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Однако, в нашем случае для оценки связи между этими переменными уместно всё же выбрать коэффицент корреляции Спирмена, поскольку шкала оценок является порядковой:" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "SpearmanrResult(correlation=0.7775327757540231, pvalue=2.74438553278318e-13)" ] }, "execution_count": 58, "metadata": {}, "output_type": "execute_result" } ], "source": [ "st.spearmanr(data.mstat, data.mstat2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Принципиальных отличий в результатах не наблюдается. Если бы мы хотели оценить (и сразу визуализировать) связь между всеми парами переменных, мы могли бы воспользоваться библиотекой `seaborn` и нарисовать тепловую карту – в данном случае корреляционную матрицу с раскрашенными ячейками, интенсивность цвета которых отвечает за силу связи.\n", "\n", "Отберём нужные столбцы (все, кроме номера студенческого и пола студента):" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [], "source": [ "small = data.loc[:,'catps' : 'game']\n", "small = small.dropna()" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
catpsmstatsoceconengpolthmstat2phistlawphilpolsocptheopregcomppgame
catps1.0000000.4868890.4637570.6128450.3246490.5213280.3044170.3755900.3592960.4536330.4144820.351877-0.0547610.3227220.248421
mstat0.4868891.0000000.4541280.6176280.4534960.3875930.7631510.3787230.4511240.5558160.3583620.4128860.0743350.1563740.373145
soc0.4637570.4541281.0000000.5838330.4474600.6489790.3769730.6563020.4692490.7115450.6714570.6090080.3509740.5703590.199828
econ0.6128450.6176280.5838331.0000000.3963720.4600550.6217650.3452220.3947220.7368660.3814570.5488710.1963450.4007270.294552
eng0.3246490.4534960.4474600.3963721.0000000.4020750.3788170.3428700.3470540.4696620.4065770.2978880.1470510.2667310.316410
polth0.5213280.3875930.6489790.4600550.4020751.0000000.4790910.7422950.5942680.6632440.7054300.6897140.3280880.6549600.357327
mstat20.3044170.7631510.3769730.6217650.3788170.4790911.0000000.3369460.5822140.6412520.3956790.6034310.2755260.2863900.486772
phist0.3755900.3787230.6563020.3452220.3428700.7422950.3369461.0000000.4514430.5677650.6489990.6313920.3841950.4468840.301759
law0.3592960.4511240.4692490.3947220.3470540.5942680.5822140.4514431.0000000.5780090.6149870.5767660.4527610.3842280.336355
phil0.4536330.5558160.7115450.7368660.4696620.6632440.6412520.5677650.5780091.0000000.5894870.7732780.3556120.5351400.443688
polsoc0.4144820.3583620.6714570.3814570.4065770.7054300.3956790.6489990.6149870.5894871.0000000.6574320.3365470.5737740.325602
ptheo0.3518770.4128860.6090080.5488710.2978880.6897140.6034310.6313920.5767660.7732780.6574321.0000000.5417700.6113800.478500
preg-0.0547610.0743350.3509740.1963450.1470510.3280880.2755260.3841950.4527610.3556120.3365470.5417701.0000000.5608210.277569
compp0.3227220.1563740.5703590.4007270.2667310.6549600.2863900.4468840.3842280.5351400.5737740.6113800.5608211.0000000.312462
game0.2484210.3731450.1998280.2945520.3164100.3573270.4867720.3017590.3363550.4436880.3256020.4785000.2775690.3124621.000000
\n", "
" ], "text/plain": [ " catps mstat soc econ eng polth mstat2 \\\n", "catps 1.000000 0.486889 0.463757 0.612845 0.324649 0.521328 0.304417 \n", "mstat 0.486889 1.000000 0.454128 0.617628 0.453496 0.387593 0.763151 \n", "soc 0.463757 0.454128 1.000000 0.583833 0.447460 0.648979 0.376973 \n", "econ 0.612845 0.617628 0.583833 1.000000 0.396372 0.460055 0.621765 \n", "eng 0.324649 0.453496 0.447460 0.396372 1.000000 0.402075 0.378817 \n", "polth 0.521328 0.387593 0.648979 0.460055 0.402075 1.000000 0.479091 \n", "mstat2 0.304417 0.763151 0.376973 0.621765 0.378817 0.479091 1.000000 \n", "phist 0.375590 0.378723 0.656302 0.345222 0.342870 0.742295 0.336946 \n", "law 0.359296 0.451124 0.469249 0.394722 0.347054 0.594268 0.582214 \n", "phil 0.453633 0.555816 0.711545 0.736866 0.469662 0.663244 0.641252 \n", "polsoc 0.414482 0.358362 0.671457 0.381457 0.406577 0.705430 0.395679 \n", "ptheo 0.351877 0.412886 0.609008 0.548871 0.297888 0.689714 0.603431 \n", "preg -0.054761 0.074335 0.350974 0.196345 0.147051 0.328088 0.275526 \n", "compp 0.322722 0.156374 0.570359 0.400727 0.266731 0.654960 0.286390 \n", "game 0.248421 0.373145 0.199828 0.294552 0.316410 0.357327 0.486772 \n", "\n", " phist law phil polsoc ptheo preg compp \\\n", "catps 0.375590 0.359296 0.453633 0.414482 0.351877 -0.054761 0.322722 \n", "mstat 0.378723 0.451124 0.555816 0.358362 0.412886 0.074335 0.156374 \n", "soc 0.656302 0.469249 0.711545 0.671457 0.609008 0.350974 0.570359 \n", "econ 0.345222 0.394722 0.736866 0.381457 0.548871 0.196345 0.400727 \n", "eng 0.342870 0.347054 0.469662 0.406577 0.297888 0.147051 0.266731 \n", "polth 0.742295 0.594268 0.663244 0.705430 0.689714 0.328088 0.654960 \n", "mstat2 0.336946 0.582214 0.641252 0.395679 0.603431 0.275526 0.286390 \n", "phist 1.000000 0.451443 0.567765 0.648999 0.631392 0.384195 0.446884 \n", "law 0.451443 1.000000 0.578009 0.614987 0.576766 0.452761 0.384228 \n", "phil 0.567765 0.578009 1.000000 0.589487 0.773278 0.355612 0.535140 \n", "polsoc 0.648999 0.614987 0.589487 1.000000 0.657432 0.336547 0.573774 \n", "ptheo 0.631392 0.576766 0.773278 0.657432 1.000000 0.541770 0.611380 \n", "preg 0.384195 0.452761 0.355612 0.336547 0.541770 1.000000 0.560821 \n", "compp 0.446884 0.384228 0.535140 0.573774 0.611380 0.560821 1.000000 \n", "game 0.301759 0.336355 0.443688 0.325602 0.478500 0.277569 0.312462 \n", "\n", " game \n", "catps 0.248421 \n", "mstat 0.373145 \n", "soc 0.199828 \n", "econ 0.294552 \n", "eng 0.316410 \n", "polth 0.357327 \n", "mstat2 0.486772 \n", "phist 0.301759 \n", "law 0.336355 \n", "phil 0.443688 \n", "polsoc 0.325602 \n", "ptheo 0.478500 \n", "preg 0.277569 \n", "compp 0.312462 \n", "game 1.000000 " ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "source": [ "small.corr('spearman') # просто корреляционная матрица" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 73, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# картинка\n", "\n", "import seaborn as sn\n", "sn.heatmap(small.corr('spearman'))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "На мой взгляд, будет привычнее, если более высоким значениям коэффициентов корреляции будут соответствовать более тёмные цвет. Изменим палитру:" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 76, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "sn.heatmap(small.corr('spearman'), cmap='Blues')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Про цветовые палитры можно почитать [здесь](https://seaborn.pydata.org/tutorial/color_palettes.html)." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" } }, "nbformat": 4, "nbformat_minor": 2 }