# Python для сбора данных

*Алла Тамбовцева, НИУ ВШЭ*

## Работа с таблицами. Введение в библиотеку `pandas`

### Датафреймы (таблицы) 

В этой и последующих лекциях мы будем работать с таблицами. В социальных науках термины «база данных» и «таблица» часто используются как синонимы. Вообще, между этими терминами есть существенная разница, так как база данных – это набор таблиц, связанных друг с другом (при определённых условиях можно думать о ней как о файле Excel с разными листами). Давайте для простоты считать эти термины эквивалентными, основы работы с «настоящими» базами данных (*SQL*, *PyMongo*) мы обсуждать не будем. Кроме того, в качестве синонима слова *таблица* мы будем использовать слово *датафрейм* как кальку с термина *data frame*.

Библиотека `pandas` используется для удобной и более эффективной работы с таблицами. Её функционал достаточно разнообразен, но давайте начнем с каких-то базовых функций и методов. 

Для начала импортируем саму библиотеку.

In [1]:
import pandas as pd

Здесь мы использовали такой приём: импортировали библиотеку и присвоили ей сокращенное имя, которое будет использоваться в пределах данного ipynb-файла. Чтобы не писать перед каждой библиотечной функцией длинное `pandas.` и не импортировать сразу все функции из этой библиотеки, мы сократили название до `pd`, и в дальнейшем Python будет понимать, что мы имеем в виду. Можно было бы сократить и до `p`, но тогда есть риск забыть про это и создать переменную с таким же именем, что в какой-то момент приведёт к проблемам. К тому же `pd` – распространенное сокращение.

(И да, таким образом можно сокращать названия любых библиотек и модулей. Ничто бы не помешало нам на предыдущих занятиях писать, например, `import math as ma`, просто в этом не было необходимости).

А теперь вернемся к таблице.

### Загрузка таблицы из файла и описание переменных

А теперь давайте загрузим какую-нибудь реальную базу данных из файла. Библиотека `pandas` достаточно гибкая, она позволяет загружать данные из файлов разных форматов. Пока остановимся на самом простом – файле *csv*, что расшифровывается как *comma separated values*. Столбцы в таком файле по умолчанию отделяются друг от друга запятой. Например, такая таблица

In [2]:
pd.DataFrame([[1, 4, 9], [4, 8, 6]])

Unnamed: 0,0,1,2
0,1,4,9
1,4,8,6


сохраненная в формате *csv* без названий строк и столбцов будет выглядеть так:

    1, 4, 9
    4, 8, 6

Но разделитель столбцов в таблице может быть и другим, например, точкой с запятой:

    1; 4; 9
    4; 8; 6

В таких случаях нам потребуется дополнительно выставлять параметр `sep = ";"`, чтобы Python понимал, как правильно отделять один столбец от другого. Но потренируемся открывать разные форматы файлов в следующий раз. Сейчас посмотрим, как загрузить файл по ссылке.

In [3]:
df = pd.read_csv("http://math-info.hse.ru/f/2017-18/py-prog/scores2.csv")

Для загрузки мы воспользовались функцией `read_csv()` и указали сс>ылку (путь к файлу) в кавычках.

*Для тех, кто чаще работает в R:* следите за написанием этой функции, есть соблазн написать `read.csv()`.

В файле `scores2.csv` сохранены оценки студентов-политологов по ряду курсов. Оценки реальные, взяты из кумулятивного рейтинга, но имена студентов зашифрованы – вместо них задействованы номера студенческих билетов. Посмотрим на датафрейм:

In [4]:
df

Unnamed: 0,id,catps,mstat,soc,econ,eng,polth,mstat2,phist,law,phil,polsoc,ptheo,preg,compp,game,wpol,male
0,М141БПЛТЛ024,7,9,8,8,9,8,10,8.0,7,9,9,7.0,8,8.0,6,10,1
1,М141БПЛТЛ031,8,10,10,10,10,10,10,9.0,9,10,10,9.0,8,8.0,9,10,1
2,М141БПЛТЛ075,9,9,9,10,9,10,9,8.0,9,10,9,9.0,8,8.0,7,9,1
3,М141БПЛТЛ017,9,9,8,8,9,9,10,6.0,9,9,9,8.0,8,8.0,8,9,0
4,М141БПЛТЛ069,10,10,10,10,10,10,9,8.0,8,10,9,7.0,6,5.0,8,10,1
5,М141БПЛТЛ072,10,9,8,10,9,8,9,8.0,8,10,9,7.0,8,8.0,9,9,0
6,М141БПЛТЛ020,8,7,7,6,9,10,8,8.0,7,7,9,7.0,8,6.0,8,9,1
7,М141БПЛТЛ026,7,10,8,7,10,7,9,8.0,8,8,8,8.0,8,7.0,7,8,0
8,М141БПЛТЛ073,7,9,8,8,9,8,9,8.0,8,9,9,7.0,7,6.0,10,9,1
9,М141БПЛТЛ078,6,6,9,5,6,10,7,6.0,8,6,9,6.0,8,8.0,6,7,0


Так как в нашем случае таблица не очень большая, Python вывел ее на экран полностью. Если строк или столбцов было бы слишком много, Python вывел бы несколько первых и последних, а в середине бы поставил многоточие.

**Описание показателей (переменных):**
    
* id – номер студенческого билета
* catps	– оценка по курсу *Категории политической науки*
* mstat	– оценка по курсу *Математика и статистика*
* soc –	оценка по курсу *Социология*
* econ	– оценка по курсу *Экономика*
* eng	– оценка по курсу *Английский язык*
* polth	– оценка по курсу *История политических учений*
* mstat2	– оценка по курсу *Математика и статистика (часть 2)*
* phist	– оценка по курсу *Политическая история*
* law	– оценка по курсу *Право*
* phil	– оценка по курсу *Философия*
* polsoc	– оценка по курсу *Политическая социология*
* ptheo	– оценка по курсу *Политическая теория*
* preg	– оценка по курсу *Политическая регионалистика*
* compp	– оценка по курсу *Сравнительная политика*
* game	– оценка по курсу *Теория игр*
* wpol	– оценка по курсу *Мировая политика и международные отношения*
* male – пол (1 ‒ мужской, 0 ‒ женский)

Так как «в обычной жизни» за рамками курса данные редко загружаются по готовой и удобной ссылке, давайте потренируемся загружать таблицы из локальных файлов на компьютере.

По умолчанию Python видит только те файлы, которые хранятся в текущей рабочей папке – папке, откуда запускается Python или, в нашем случае, Jupyter Notebook. Чтобы узнать, какая папка является рабочей, необходимо загрузить модуль `os` и вызвать функцию `getcwd()`:

In [5]:
import os # от operating system

In [6]:
os.getcwd() # от get current working directory

'/Users/allat/Desktop'

Эта функция возвращает путь к рабочей папке. В моем случае это `'/Users/allat/Desktop`, на компьютере с Windows в классе ‒ `C:\\Users\\student`. Python подсказывает, что в моем случае рабочей папкой является *Рабочий стол*, который лежит в папке *oem*, в *home*. Обратите внимание: в Mac OS и Linux слэши между названиями папок прямые и одинарные, в Windows – обратные и двойные. Плюс, в Windows всегда в начале прописывается диск (`C:` или иные). На вид слэшей нужно всегда обращать внимание: Python не воспринимает одинарные обратные слэши `\` и будет ругаться, если мы пропишем путь к файлу с ними. Их нужно заменить на прямые слэши `/`, и тогда всё будет хорошо.

Иногда удобно положить файл, с которым мы будем работать, в рабочую папку. Можно явно переместить файл из папки в папку, но при работе в Jupyter можно сделать проще – воспользоваться кнопкой *Upload* на странице *Home*. Кто пользуется командной строкой, есть альтернатива: запустить сам Jupyter Notebook из той папки, где хранятся файлы для работы.

А так можно изменить рабочую папку, прописав новый путь (обратите внимание, папка должна существовать; если ее нет, Python не создаст её автоматически, а выдаст ошибку):

In [7]:
os.chdir("/Users/allat/Downloads")

Теперь перейдем к загрузке самого файла. Не всегда удобно перемещать файл в рабочую папку или изменять путь к рабочей папке. Иногда проще прописать путь к самому файлу. Если неясно, как он должен выглядеть, всегда можно узнать, скопировав расположение файла из *Свойств*, кликнув правой клавишей на файл (не забудьте после пути к файлу указать название файла с расширением и обратите внимание на слэши). 

In [8]:
df = pd.read_csv("scores2.csv")

Какую сводную информацию по таблице можно получить? Например, число переменных (столбцов) и наблюдений (строк), а также число заполненных значений. 

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 18 columns):
id        60 non-null object
catps     60 non-null int64
mstat     60 non-null int64
soc       60 non-null int64
econ      60 non-null int64
eng       60 non-null int64
polth     60 non-null int64
mstat2    60 non-null int64
phist     59 non-null float64
law       60 non-null int64
phil      60 non-null int64
polsoc    60 non-null int64
ptheo     58 non-null float64
preg      60 non-null int64
compp     57 non-null float64
game      60 non-null int64
wpol      60 non-null int64
male      60 non-null int64
dtypes: float64(3), int64(14), object(1)
memory usage: 8.5+ KB


Какую информацию выдал метод `.info()`? Во-первых, он сообщил нам, что `df` является объектом *DataFrame*. Во-вторых, он вывел число строк (`60 entries`) и показал их индексы (`М141БПЛТЛ024 to 13051038`). В-третьих, он вывел число столбцов (`total 17 columns`). Наконец, он выдал информацию по каждому столбцу. Остановимся на этом поподробнее.

В выдаче выше представлено, сколько непустых элементов содержится в каждом столбце. Непустые элементы `non-null` – это всё, кроме пропущенных значений, которые кодируются особым образом (`NaN` – от * Not A Number*). В нашей таблице почти все столбцы заполнены полностью: 60 ненулевых элементов из 60. Но есть столбцы с пропущенными значениями: *phist*, *ptheo*, *compp*.

Далее указан тип каждого столбца, целочисленный `int64` и с плавающей точкой`float64`. Что означают числа в конце? Это объем памяти, который требуется для хранения.

Сводную статистическую информацию можно получить с помощью метода `.describe()`.

In [10]:
df.describe()

Unnamed: 0,catps,mstat,soc,econ,eng,polth,mstat2,phist,law,phil,polsoc,ptheo,preg,compp,game,wpol,male
count,60.0,60.0,60.0,60.0,60.0,60.0,60.0,59.0,60.0,60.0,60.0,58.0,60.0,57.0,60.0,60.0,60.0
mean,6.7,7.466667,7.216667,6.116667,8.35,6.6,7.033333,5.830508,6.866667,5.966667,7.183333,5.603448,6.7,5.631579,6.25,7.566667,0.45
std,1.417804,1.578099,1.208608,1.718214,0.971195,1.638519,1.707081,1.662492,1.213856,1.850027,1.589069,1.413465,1.356716,1.422166,1.781496,1.430499,0.501692
min,4.0,4.0,4.0,4.0,6.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,0.0
25%,6.0,6.0,6.0,5.0,8.0,6.0,6.0,4.0,6.0,4.75,6.0,4.25,6.0,4.0,5.0,7.0,0.0
50%,7.0,7.0,7.0,6.0,8.0,6.0,7.0,6.0,7.0,5.5,7.0,5.0,7.0,5.0,6.0,8.0,0.0
75%,7.25,9.0,8.0,7.0,9.0,8.0,8.0,7.0,8.0,7.0,8.0,6.0,8.0,7.0,7.25,8.25,1.0
max,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,9.0,10.0,10.0,9.0,8.0,8.0,10.0,10.0,1.0


В случае количественных показателей этот метод возвращает таблицу с основными описательными статистиками: 

* count – число непустых (заполненных) значений
* mean – среднее арифметическое
* std – стандартное отклонение (показатель разброса данных относительно среднего значения)
* min – миниммальное значение
* max – максимальное значение
* 25% – нижний квартиль (значение, которое 25% значений не превышают)
* 50% – медиана (значение, которое 50% значений не превышают)
* 75% – верхний квартиль (значение, которое 75% значений не превышают)