{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Введение в ТВиМС: практикум по проверке статистических гипотез\n", "\n", "*Алла Тамбовцева, НИУ ВШЭ*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Импортируем библиотеку `pandas` для чтения и обработки данных, хранящихся в файле Excel. Она обычно импортируется с сокращенным названием `pd`:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Подготовка данных\n", "\n", "Для работы мы будем использовать совсем свежие данные – результаты опроса на паре по Python, посвященному героям музыкальной сказки «Не покидай...» 1989 года (страница фильма будет в домашнем задании на парсинг HTML). \n", "\n", "Кого не было на той паре, идея опроса: \n", "\n", "* сначала было предложено выбрать самых интересных героев по их краткому описанию (как в пьесах, без подробностей, раскрывающих сюжет);\n", "\n", "* потом были показаны [слайды](https://www.dropbox.com/s/s6ol9banegd365b/%D0%9D%D0%9F_%D1%81%D0%BB%D0%B0%D0%B9%D0%B4%D1%8B-05.pdf?dl=0) с кадрами из фильма с героями в разных ситуациях (видео, конечно, правильнее, но совместный просмотр сказок вместо парсинга в планы не входил);\n", "\n", "* по итогам просмотра слайдов было предложено поставить лайки/дизлайки образам героев и сыгравшим их актерам (нравится или нет, совпало ли с ожиданиями или нет);\n", "\n", "* по итогам знакомства с героями было предложено сделать итоговый выбор самых интересных героев.\n", "\n", "Был запрос «посмотреть на статистику», запрос принят и обработан :)\n", "\n", "Загружаем данные из файла `NPK.xlsx` (файл должен находиться в той же папке, что и текущий ipynb-файл) и удаляем лишний столбец `Unnamed: 0` с номером строки):" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | id | \n", "группа | \n", "профиль | \n", "пол | \n", "Теодор | \n", "Флора | \n", "Альбина | \n", "Патрик | \n", "Пенапью | \n", "Давиль | \n", "Оттилия | \n", "Жак | \n", "Марта | \n", "Марселла | \n", "выбор1 | \n", "выбор2 | \n", "итог1 | \n", "итог2 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "35 | \n", "221_223 | \n", "политология | \n", "жен | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Альбина | \n", "Флора | \n", "Давиль | \n", "Оттилия | \n", "
1 | \n", "36 | \n", "221_223 | \n", "политология | \n", "жен | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Давиль | \n", "Жак | \n", "Оттилия | \n", "Жак | \n", "
2 | \n", "37 | \n", "221_223 | \n", "политология | \n", "жен | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "Жак | \n", "0 | \n", "Оттилия | \n", "Жак | \n", "
3 | \n", "38 | \n", "221_223 | \n", "политология | \n", "жен | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Патрик | \n", "Пенапью | \n", "Марта | \n", "Марселла | \n", "
4 | \n", "39 | \n", "221_223 | \n", "политология | \n", "муж | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "Давиль | \n", "Оттилия | \n", "Давиль | \n", "Оттилия | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
94 | \n", "409 | \n", "эк | \n", "экономика | \n", "жен | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Флора | \n", "Жак | \n", "Жак | \n", "Патрик | \n", "
95 | \n", "410 | \n", "эк | \n", "экономика | \n", "жен | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "Флора | \n", "Марта | \n", "Флора | \n", "Оттилия | \n", "
96 | \n", "411 | \n", "эк | \n", "экономика | \n", "муж | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "Альбина | \n", "Марта | \n", "Патрик | \n", "Марта | \n", "
97 | \n", "412 | \n", "эк | \n", "экономика | \n", "жен | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Патрик | \n", "Марселла | \n", "Давиль | \n", "Оттилия | \n", "
98 | \n", "413 | \n", "эк | \n", "экономика | \n", "жен | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "1 | \n", "Оттилия | \n", "Жак | \n", "Оттилия | \n", "Марта | \n", "
99 rows × 18 columns
\n", "\n", " | герой | \n", "актер | \n", "возраст | \n", "опыт | \n", "фильмография | \n", "число лайков кт | \n", "число лайков ст | \n", "
---|---|---|---|---|---|---|---|
0 | \n", "Теодор | \n", "Вячеслав Невинный | \n", "54 | \n", "30 | \n", "157 | \n", "143 | \n", "53 | \n", "
1 | \n", "Флора | \n", "Лидия Федосеева-Шукшина | \n", "50 | \n", "31 | \n", "106 | \n", "99 | \n", "43 | \n", "
2 | \n", "Альбина | \n", "Варвара Владимирова | \n", "20 | \n", "5 | \n", "21 | \n", "134 | \n", "55 | \n", "
3 | \n", "Патрик | \n", "Игорь Красавин | \n", "17 | \n", "0 | \n", "1 | \n", "120 | \n", "68 | \n", "
4 | \n", "Пенапью | \n", "Артем Тынкасов | \n", "18 | \n", "1 | \n", "15 | \n", "124 | \n", "28 | \n", "
5 | \n", "Давиль | \n", "Альберт Филозов | \n", "51 | \n", "29 | \n", "165 | \n", "132 | \n", "50 | \n", "
6 | \n", "Оттилия | \n", "Регина Разума | \n", "37 | \n", "13 | \n", "51 | \n", "121 | \n", "64 | \n", "
7 | \n", "Жак | \n", "Владимир Ставицкий | \n", "31 | \n", "9 | \n", "29 | \n", "109 | \n", "76 | \n", "
8 | \n", "Марта | \n", "Елена Антонова | \n", "27 | \n", "5 | \n", "30 | \n", "93 | \n", "76 | \n", "
9 | \n", "Марселла | \n", "Светлана Селезнева | \n", "23 | \n", "5 | \n", "47 | \n", "93 | \n", "38 | \n", "