# Программирование на Python

*Алла Тамбовцева, НИУ ВШЭ*

### JSON-файлы и таблицы `pandas`

JSON расшифровывается как *JavaScript Object Notation*. Изначально этот формат хранения данных использовался в языке JavaScript, но теперь он потерял привязку к конкретному языку программирования и стал универсальным. С форматом JSON можно столкнуться при обращении к API, базам данных; формат часто применяется для хранения информации на сервере, к которому обращается сайт, например, в зависимости от запросов пользователей. *Object* здесь можно понимать как некоторую структуру хранения данных (список, кортеж, словарь), которая записывается в специальном виде, внешне напоминающим обычную строку. 

Импортируем модуль `json`:

In [13]:
import json

Начнём работать с реальными данными. Зайдём на [Портал](https://data.mos.ru/) открытых данных Правительства Москвы в раздел *Образование* и выберем набор данных *Перечень олимпиад школьников*. Кликнем *Экспорт* и скачаем файл в формате json. Скачается, правда, zip-архив, но его можно распаковать. Сохраним полный путь к json-файлу в переменную `name`:

In [14]:
name = '/Users/allat/Desktop/data-6114-2018-12-10.json'

Теперь загрузим содержимое файла в Python. Вообще при работе с json-файлами выделяют две операции: *десериализация* и *сериализация*. Десериализация – это преобразование объекта JSON в другую структуру данных (например, в питоновский словарь или список), а сериализация – это запись данных в формат JSON. Десериализуем: 

In [15]:
with open(name, "r", encoding="Windows-1251") as read_file:
    data = json.load(read_file)

Запись с `with open() as read_file` эквивалентна созданию переменной `read_file` и присваиванию ей значения из `open()`. Плюс, так как текст в файле на кириллице, при загрузке файла имеет смысл указать кодировку (здесь это *Windows-1251*), иначе файл может не открыться или открыться, но с крокозябрами вместо букв.

Посмотрим на `data`:

In [None]:
data

В переменной `data` сохранён список словарей. Можем посмотреть на первый элемент списка:

In [17]:
data[0]

{'global_id': 39706536,
 'ID': 43,
 'Name': 'Всероссийская олимпиада по технологии',
 'WebSite': [{'WebSite': 'vos.olimpiada.ru/2015/okrug'}],
 'OlympiadType': 'Всероссийская олимпиада',
 'Class': '7 - 11',
 'Stage': 2,
 'OlympiadDate': '05.12.2015',
 'SchoolYear': 2015,
 'Theme': 'Технология'}

Если привести данные в таком формате к привычному табличному виду, то получится, что в таблице у нас есть 8 столбцов (с *global_id* по *AdmArea*), а каждая строка таблицы описывается словарём как в ячейке выше. Данные в таком формате удобно хранить, к ним удобно писать запросы, выбирая значения по ключам в словарях, но иногда логичнее поместить их в таблицу. Для этого нам понадобится библиотека `pandas`:

In [18]:
import pandas as pd

Превратим список словарей `data` в таблицу (датафрейм *pandas*):

In [19]:
df = pd.DataFrame(data)

Посмотрим на неё:

In [20]:
df.head()  # head - первые несколько строк

Unnamed: 0,Class,ID,Name,OlympiadDate,OlympiadType,SchoolYear,Stage,Theme,WebSite,global_id
0,7 - 11,43,Всероссийская олимпиада по технологии,05.12.2015,Всероссийская олимпиада,2015,2.0,Технология,[{'WebSite': 'vos.olimpiada.ru/2015/okrug'}],39706536
1,9 - 11,44,Всероссийская олимпиада по технологии,"01.02.2016, 02.02.2016",Всероссийская олимпиада,2016,3.0,Технология,[{'WebSite': 'vos.olimpiada.ru/2016/region'}],39706537
2,6 - 7,45,Математический праздник,21.02.2016,Московская олимпиада,2016,,Математика,[{'WebSite': 'olympiads.mccme.ru/matprazdnik/'}],39706538
3,5 - 11,46,Московская астрономическая олимпиада,06.02.2016,Московская олимпиада,2016,,Астрономия,[{'WebSite': 'astroolymp.ru/'}],39706540
4,5 - 11,47,Московская астрономическая олимпиада,09.12.2015 - 18.01.2016,Московская олимпиада,2016,,Астрономия,[{'WebSite': 'astroolymp.ru/'}],39706541


Для примера можем экспортировать таблицу в файл Excel:

In [21]:
writer = pd.ExcelWriter('olymp.xlsx')
df.to_excel(writer)

Теперь вернёмся к json-файлам и посмотрим на сериализацию, конвертацию в JSON. Создадим словарь `d` с данными по пользователям:

In [22]:
d = {'user1': {'name' : 'Ann', 'age': 25},
    'user2' : {'name' : 'Bill', 'age' : 28}}

Запишем содержимое в json-файл, используя функцию `dump`:

In [23]:
with open("data_file.json", "w") as write_file:
    json.dump(d, write_file)

Можно найти файл на компьютере, открыть его с помощью блокнота и убедиться, что всё действительно сохранилось. 

В модуле `json` есть пары связанных функций: `dump()` и `dumps()`, `load()` и `loads()`. Функции без окончания `s` работают с файлами, а с `-s` – со строками. Сохраним `d` как строку:

In [24]:
json_string = json.dumps(d)
json_string

'{"user1": {"name": "Ann", "age": 25}, "user2": {"name": "Bill", "age": 28}}'

В завершение обсуждения json-файлов хочется отметить, что в JSON нет понятия, аналогичного кортежам в Python. Это означает, что при записи питоновского объекта в json-файл кортежи преобразуются в списки. Пример:

In [25]:
my_tuple = ('Ann', 23)
tuple_dec = json.dumps(my_tuple)  # сохраняем как json-строку
tuple_enc = json.loads(tuple_dec)  # считываем json из строки

In [26]:
my_tuple  # было

('Ann', 23)

In [27]:
tuple_enc  # стало

['Ann', 23]

Всё!