{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Программирование на Python\n",
    "\n",
    "*Алла Тамбовцева, НИУ ВШЭ*"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### JSON-файлы и таблицы `pandas`"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "JSON расшифровывается как *JavaScript Object Notation*. Изначально этот формат хранения данных использовался в языке JavaScript, но теперь он потерял привязку к конкретному языку программирования и стал универсальным. С форматом JSON можно столкнуться при обращении к API, базам данных; формат часто применяется для хранения информации на сервере, к которому обращается сайт, например, в зависимости от запросов пользователей. *Object* здесь можно понимать как некоторую структуру хранения данных (список, кортеж, словарь), которая записывается в специальном виде, внешне напоминающим обычную строку. \n",
    "\n",
    "Импортируем модуль `json`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "import json"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Начнём работать с реальными данными. Зайдём на [Портал](https://data.mos.ru/) открытых данных Правительства Москвы в раздел *Образование* и выберем набор данных *Перечень олимпиад школьников*. Кликнем *Экспорт* и скачаем файл в формате json. Скачается, правда, zip-архив, но его можно распаковать. Сохраним полный путь к json-файлу в переменную `name`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "name = '/Users/allat/Desktop/data-6114-2018-12-10.json'"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Теперь загрузим содержимое файла в Python. Вообще при работе с json-файлами выделяют две операции: *десериализация* и *сериализация*. Десериализация – это преобразование объекта JSON в другую структуру данных (например, в питоновский словарь или список), а сериализация – это запись данных в формат JSON. Десериализуем: "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open(name, \"r\", encoding=\"Windows-1251\") as read_file:\n",
    "    data = json.load(read_file)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Запись с `with open() as read_file` эквивалентна созданию переменной `read_file` и присваиванию ей значения из `open()`. Плюс, так как текст в файле на кириллице, при загрузке файла имеет смысл указать кодировку (здесь это *Windows-1251*), иначе файл может не открыться или открыться, но с крокозябрами вместо букв.\n",
    "\n",
    "Посмотрим на `data`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "data"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "В переменной `data` сохранён список словарей. Можем посмотреть на первый элемент списка:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'global_id': 39706536,\n",
       " 'ID': 43,\n",
       " 'Name': 'Всероссийская олимпиада по технологии',\n",
       " 'WebSite': [{'WebSite': 'vos.olimpiada.ru/2015/okrug'}],\n",
       " 'OlympiadType': 'Всероссийская олимпиада',\n",
       " 'Class': '7 - 11',\n",
       " 'Stage': 2,\n",
       " 'OlympiadDate': '05.12.2015',\n",
       " 'SchoolYear': 2015,\n",
       " 'Theme': 'Технология'}"
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data[0]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Если привести данные в таком формате к привычному табличному виду, то получится, что в таблице у нас есть 8 столбцов (с *global_id* по *AdmArea*), а каждая строка таблицы описывается словарём как в ячейке выше. Данные в таком формате удобно хранить, к ним удобно писать запросы, выбирая значения по ключам в словарях, но иногда логичнее поместить их в таблицу. Для этого нам понадобится библиотека `pandas`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Превратим список словарей `data` в таблицу (датафрейм *pandas*):"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.DataFrame(data)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Посмотрим на неё:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Class</th>\n",
       "      <th>ID</th>\n",
       "      <th>Name</th>\n",
       "      <th>OlympiadDate</th>\n",
       "      <th>OlympiadType</th>\n",
       "      <th>SchoolYear</th>\n",
       "      <th>Stage</th>\n",
       "      <th>Theme</th>\n",
       "      <th>WebSite</th>\n",
       "      <th>global_id</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>7 - 11</td>\n",
       "      <td>43</td>\n",
       "      <td>Всероссийская олимпиада по технологии</td>\n",
       "      <td>05.12.2015</td>\n",
       "      <td>Всероссийская олимпиада</td>\n",
       "      <td>2015</td>\n",
       "      <td>2.0</td>\n",
       "      <td>Технология</td>\n",
       "      <td>[{'WebSite': 'vos.olimpiada.ru/2015/okrug'}]</td>\n",
       "      <td>39706536</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9 - 11</td>\n",
       "      <td>44</td>\n",
       "      <td>Всероссийская олимпиада по технологии</td>\n",
       "      <td>01.02.2016, 02.02.2016</td>\n",
       "      <td>Всероссийская олимпиада</td>\n",
       "      <td>2016</td>\n",
       "      <td>3.0</td>\n",
       "      <td>Технология</td>\n",
       "      <td>[{'WebSite': 'vos.olimpiada.ru/2016/region'}]</td>\n",
       "      <td>39706537</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>6 - 7</td>\n",
       "      <td>45</td>\n",
       "      <td>Математический праздник</td>\n",
       "      <td>21.02.2016</td>\n",
       "      <td>Московская олимпиада</td>\n",
       "      <td>2016</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Математика</td>\n",
       "      <td>[{'WebSite': 'olympiads.mccme.ru/matprazdnik/'}]</td>\n",
       "      <td>39706538</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>5 - 11</td>\n",
       "      <td>46</td>\n",
       "      <td>Московская астрономическая олимпиада</td>\n",
       "      <td>06.02.2016</td>\n",
       "      <td>Московская олимпиада</td>\n",
       "      <td>2016</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Астрономия</td>\n",
       "      <td>[{'WebSite': 'astroolymp.ru/'}]</td>\n",
       "      <td>39706540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5 - 11</td>\n",
       "      <td>47</td>\n",
       "      <td>Московская астрономическая олимпиада</td>\n",
       "      <td>09.12.2015 - 18.01.2016</td>\n",
       "      <td>Московская олимпиада</td>\n",
       "      <td>2016</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Астрономия</td>\n",
       "      <td>[{'WebSite': 'astroolymp.ru/'}]</td>\n",
       "      <td>39706541</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    Class  ID                                   Name             OlympiadDate  \\\n",
       "0  7 - 11  43  Всероссийская олимпиада по технологии               05.12.2015   \n",
       "1  9 - 11  44  Всероссийская олимпиада по технологии   01.02.2016, 02.02.2016   \n",
       "2   6 - 7  45                Математический праздник               21.02.2016   \n",
       "3  5 - 11  46   Московская астрономическая олимпиада               06.02.2016   \n",
       "4  5 - 11  47   Московская астрономическая олимпиада  09.12.2015 - 18.01.2016   \n",
       "\n",
       "              OlympiadType  SchoolYear  Stage       Theme  \\\n",
       "0  Всероссийская олимпиада        2015    2.0  Технология   \n",
       "1  Всероссийская олимпиада        2016    3.0  Технология   \n",
       "2     Московская олимпиада        2016    NaN  Математика   \n",
       "3     Московская олимпиада        2016    NaN  Астрономия   \n",
       "4     Московская олимпиада        2016    NaN  Астрономия   \n",
       "\n",
       "                                            WebSite  global_id  \n",
       "0      [{'WebSite': 'vos.olimpiada.ru/2015/okrug'}]   39706536  \n",
       "1     [{'WebSite': 'vos.olimpiada.ru/2016/region'}]   39706537  \n",
       "2  [{'WebSite': 'olympiads.mccme.ru/matprazdnik/'}]   39706538  \n",
       "3                   [{'WebSite': 'astroolymp.ru/'}]   39706540  \n",
       "4                   [{'WebSite': 'astroolymp.ru/'}]   39706541  "
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head()  # head - первые несколько строк"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Для примера можем экспортировать таблицу в файл Excel:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
    "writer = pd.ExcelWriter('olymp.xlsx')\n",
    "df.to_excel(writer)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Теперь вернёмся к json-файлам и посмотрим на сериализацию, конвертацию в JSON. Создадим словарь `d` с данными по пользователям:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
    "d = {'user1': {'name' : 'Ann', 'age': 25},\n",
    "    'user2' : {'name' : 'Bill', 'age' : 28}}"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Запишем содержимое в json-файл, используя функцию `dump`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open(\"data_file.json\", \"w\") as write_file:\n",
    "    json.dump(d, write_file)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Можно найти файл на компьютере, открыть его с помощью блокнота и убедиться, что всё действительно сохранилось. \n",
    "\n",
    "В модуле `json` есть пары связанных функций: `dump()` и `dumps()`, `load()` и `loads()`. Функции без окончания `s` работают с файлами, а с `-s` – со строками. Сохраним `d` как строку:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'{\"user1\": {\"name\": \"Ann\", \"age\": 25}, \"user2\": {\"name\": \"Bill\", \"age\": 28}}'"
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "json_string = json.dumps(d)\n",
    "json_string"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "В завершение обсуждения json-файлов хочется отметить, что в JSON нет понятия, аналогичного кортежам в Python. Это означает, что при записи питоновского объекта в json-файл кортежи преобразуются в списки. Пример:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "my_tuple = ('Ann', 23)\n",
    "tuple_dec = json.dumps(my_tuple)  # сохраняем как json-строку\n",
    "tuple_enc = json.loads(tuple_dec)  # считываем json из строки"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "('Ann', 23)"
      ]
     },
     "execution_count": 26,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "my_tuple  # было"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['Ann', 23]"
      ]
     },
     "execution_count": 27,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tuple_enc  # стало"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Всё!"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}