{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Основы программирования в Python\n",
    "\n",
    "*Алла Тамбовцева, НИУ ВШЭ*"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Работа с API: пример с API ВКонтакте"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Сегодня мы немного поработаем с API. API – программный интерфейс приложения, сокращение от *Application Programming Interface*. Этот интерфейс позволяет выполнять различные операции автоматически, через приложение. Если API нам нужен исключительно как источник данных, можно писать запросы, позволяющие обратиться к хранилищу информации внутри API. Если мы хотим управлять приложением, которое будет выполнять какие-то действия, удаленно, можно написать код, который будет, например, автоматически отвечать на сообщения, когда мы не онлайн, лайкать новый пост друга через 30 секунд после его появления, пересылать на почту фотографии, которые выложили участники диалога и прочее.\n",
    "\n",
    "Мы будем работать с API социальной сети ВКонтакте. Использовать API для написания и приема сообщений средствами Python мы не будем, а рассмотрим API как источник данных, позволяющий выгрузить все посты со стены пользователя или сообщества. Для работы нам понадобится библиотека `vk`, ее нужно установить через `pip install vk` в *Anaconda Command Prompt* (см. пример с `selenium` [здесь](https://nbviewer.jupyter.org/github/allatambov/Py-programming-3/blob/master/11-06/lect-selenium1.ipynb)).\n",
    "\n",
    "Импортируем библиотеку:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import vk"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Теперь нужно авторизоваться: создать приложение и получить токен доступа к нему."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Для авторизации:\n",
    "    \n",
    "1. [Создать](https://vk.com/apps?act=manage) приложение ВКонтакте (пройти по ссылке). Дать название, выбрать *Standalone-приложение*.\n",
    "2. Включить приложение, сделать публичным (*Настройки - Состояние* и выбрать в выпадающем меню *Приложение включено и видно всем*).\n",
    "3. Авторизоваться: скопировать строку ниже в браузер, в `client id` вместо 1 выставить `id` своего приложения (первая строка в настроках ‒ *ID приложения*). Если не хочется ни в чем ограничивать свое приложение, можно оставить `scope=all` (у приложения будет доступ ко всему, к чему есть доступ у пользователя).\n",
    "\n",
    "    > ```https://oauth.vk.com/authorize?client_id=1&display=page&redirect_uri=http://oauth.vk.com/blank.html&scope=all&response_type=token```\n",
    "\n",
    "4. Скопировать `access token` из обновленной адресной строки (все после `access_token=` и до `&expires_in`, без `&`). Никому не показывать! По этому токену можно получить доступ ко всему аккаунту."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# скопировать свой access token без пробелов вместо 1234\n",
    "token = '1234'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "session = vk.Session(access_token = token) # открыть сессию для работы\n",
    "api = vk.API(session) # подключиться к API"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Попробуем сгрузить первые 100 постов со [стены](https://vk.com/hseofficial) неофициального сообщества ВШЭ. Сохраним ссылку на сообщество в переменную `group`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "group = 'hseofficial'"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Обратите внимание: ссылка должна быть относительной, то есть без части с `https:/vk.com/`. Python и так будет знать, что мы работаем с сетью ВКонтакте."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Теперь получим доступ к стене этого сообщества:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "# wall.get - \"подключаемся\" к стене\n",
    "# count - сколько постов выгрузить (максимум)\n",
    "# v - версия API, можно обойтись без нее, но Python может выдать warning\n",
    "\n",
    "res = api.wall.get(domain = group, count = 100, v = 5.103)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "res"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Результат, сохраненный в `res`, очень похож на словарь. На самом деле, многие API возвращают результаты в формате JSON (JavaScript Object Notation), который тоже может быть представлен в виде набора пар ключ-значение."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "dict_keys(['count', 'items'])"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "res.keys()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ключами являются `count` и `items`. Нужные нам объекты (текст постов, id автора, дата и время публикации и проч.) находятся в `items`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'id': 33029,\n",
       " 'from_id': -132,\n",
       " 'owner_id': -132,\n",
       " 'date': 1575971849,\n",
       " 'marked_as_ads': 0,\n",
       " 'post_type': 'post',\n",
       " 'text': 'Что меня огорчает',\n",
       " 'attachments': [{'type': 'link',\n",
       "   'link': {'url': 'https://www.hse.ru/our/news/323346844.html',\n",
       "    'title': 'Что меня огорчает',\n",
       "    'caption': 'www.hse.ru',\n",
       "    'description': 'Авторская колонка первого проректора Вадима Радаева',\n",
       "    'photo': {'id': 457289885,\n",
       "     'album_id': -26,\n",
       "     'owner_id': 2000021743,\n",
       "     'sizes': [{'type': 'k',\n",
       "       'url': 'https://sun1-23.userapi.com/c858024/v858024349/120e4c/to-wJyYBh9w.jpg',\n",
       "       'width': 1000,\n",
       "       'height': 480},\n",
       "      {'type': 'l',\n",
       "       'url': 'https://sun1-86.userapi.com/c858024/v858024349/120e4b/jvKn7gctoWs.jpg',\n",
       "       'width': 537,\n",
       "       'height': 240},\n",
       "      {'type': 'm',\n",
       "       'url': 'https://sun1-90.userapi.com/c858024/v858024349/120e48/c9FrIN8g3F0.jpg',\n",
       "       'width': 130,\n",
       "       'height': 87},\n",
       "      {'type': 'p',\n",
       "       'url': 'https://sun1-17.userapi.com/c858024/v858024349/120e4a/k4mOW6y9DRM.jpg',\n",
       "       'width': 260,\n",
       "       'height': 173},\n",
       "      {'type': 's',\n",
       "       'url': 'https://sun1-19.userapi.com/c858024/v858024349/120e47/Wr__bx8GuTU.jpg',\n",
       "       'width': 75,\n",
       "       'height': 50},\n",
       "      {'type': 'x',\n",
       "       'url': 'https://sun1-89.userapi.com/c858024/v858024349/120e49/p6wvV7kAM9Y.jpg',\n",
       "       'width': 150,\n",
       "       'height': 100}],\n",
       "     'text': '',\n",
       "     'date': 1575971849},\n",
       "    'is_favorite': False}}],\n",
       " 'post_source': {'type': 'vk'},\n",
       " 'comments': {'count': 1, 'can_post': 1, 'groups_can_post': True},\n",
       " 'likes': {'count': 8, 'user_likes': 0, 'can_like': 1, 'can_publish': 1},\n",
       " 'reposts': {'count': 0, 'user_reposted': 0},\n",
       " 'views': {'count': 4289},\n",
       " 'is_favorite': False}"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "res['items'][0] # первый элемент items - первый пост со всей информацией о нем"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Помимо текста поста можно найти много всего интересного. Например, тип поста (`post_type`), дата (`date`), id поста (`id`), лайки (`likes`, которые включают информацию о том, могут ли пользователи лайкать пост и публиковать его, а также собственно число лайков), репосты (`reposts`, которые включают число репостов), число просмотров (`views`), комментарии (`comments`, которые включают информацию о том, могут ли пользователи комментировать пост, и число комментариев), и так далее."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Давайте остановимся на тексте поста, id автора, id поста, дате публикации, числе лайков и репостов. Чтобы извлечь соответствующую информацию, сохраним `items` и извлечем из них нужные поля:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "items = res['items']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "full_list = []\n",
    "\n",
    "for item in items:\n",
    "    L = [item['from_id'], item['id'], item['text'], item['date'],\n",
    "        item['likes']['count'], item['reposts']['count']]  # нужные поля\n",
    "    full_list.append(L)  # добавляем в список списков full_list"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[[-132, 33029, 'Что меня огорчает', 1575971849, 8, 0],\n",
       " [-132, 33028, '', 1575971665, 13, 2],\n",
       " [-132, 33027, '', 1575971625, 4, 0]]"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# несколько элементов списка\n",
    "full_list[0:3]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Видно, что в некоторых постах текста не обнаружено. "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Из этого списка списков можно легко сделать датафрейм `pandas`. Но прежде посмотрим, как сгрузить следующие 100 (и не только 100) постов со стены. Обычно при работе с API нужно принимать во внимание две вещи: 1) какое ограничение стоит на число запросов за один раз (число постов в нашем случае); 2) какое ограничение стоит на число запросов в минуту. Чтобы действовать в соответствии с этими ограничениями, поступим так: будем грузить каждые следующие 100 постов, добавлять их к нашему списку, потом немного ждать, и грузить еще 100 постов, и так до тех пор, пока не сгрузим желаемое количество.\n",
    "\n",
    "Давайте для начала выберем это желаемое число постов. Пусть будет 400. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "nposts = 400"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Теперь вопрос: по каким значениям нужно «пробегаться» в цикле, чтобы сгрузить посты с 100 по 400 (первые 100 уже сохранены в `res`)? По целым значениям от 2 до 4 включительно, умножая эти значения на 100. В `vk.get` есть опция `offset`. Она позволяет сдвинуть начало отсчета постов на некоторое число. Так, если мы напишем `api.wall.get(domain = group, count = 100, offset = 100, v = 5.73)`,  мы получим посты с 100 по 200, так как начало отсчета сдвинулось на 100."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Реализуем описанное выше. Для цикла нам понадобится `range()`, а для задержки после выгрузки каждой сотни постов нам пригодится функция `sleep`: "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "from time import sleep"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "for i in range(1, 3):\n",
    "    res2 = api.wall.get(domain = group, count = 100, offset = 100 * i, v = 5.73)\n",
    "    items2 = res2['items']\n",
    "    items.extend(items2) # добавляем к первой сотне постов в items\n",
    "    sleep(0.5)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "# опять выберем только нужные поля\n",
    "full_list = []\n",
    "for item in items:\n",
    "    L = [item['from_id'], item['id'], item['text'], item['date'],\n",
    "        item['likes']['count'], item['reposts']['count']]\n",
    "    full_list.append(L)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Оставлось превратить обновленный список `items` (список списков) в датафрейм. Импортируем `pandas`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Создадим датафрейм:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.DataFrame(full_list)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "      <th>2</th>\n",
       "      <th>3</th>\n",
       "      <th>4</th>\n",
       "      <th>5</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>-132</td>\n",
       "      <td>33029</td>\n",
       "      <td>Что меня огорчает</td>\n",
       "      <td>1575971849</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>-132</td>\n",
       "      <td>33028</td>\n",
       "      <td></td>\n",
       "      <td>1575971665</td>\n",
       "      <td>13</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>-132</td>\n",
       "      <td>33027</td>\n",
       "      <td></td>\n",
       "      <td>1575971625</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>-132</td>\n",
       "      <td>33026</td>\n",
       "      <td></td>\n",
       "      <td>1575971586</td>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>-132</td>\n",
       "      <td>33025</td>\n",
       "      <td>Вышка в прошлом году запустила новый проект, о...</td>\n",
       "      <td>1575971433</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>5</td>\n",
       "      <td>-132</td>\n",
       "      <td>33024</td>\n",
       "      <td>Поздравляем! Основоположник \"Русских хакеров\" ...</td>\n",
       "      <td>1575971123</td>\n",
       "      <td>6</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>6</td>\n",
       "      <td>-132</td>\n",
       "      <td>33023</td>\n",
       "      <td>Опубликованы решения Ученого совета по стоимос...</td>\n",
       "      <td>1575970990</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>7</td>\n",
       "      <td>-132</td>\n",
       "      <td>33022</td>\n",
       "      <td></td>\n",
       "      <td>1575969388</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>8</td>\n",
       "      <td>-132</td>\n",
       "      <td>33021</td>\n",
       "      <td></td>\n",
       "      <td>1575878182</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>9</td>\n",
       "      <td>-132</td>\n",
       "      <td>33019</td>\n",
       "      <td>Вакансия для наших студентов от Леруа Мерлен h...</td>\n",
       "      <td>1575878062</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     0      1                                                  2           3  \\\n",
       "0 -132  33029                                  Что меня огорчает  1575971849   \n",
       "1 -132  33028                                                     1575971665   \n",
       "2 -132  33027                                                     1575971625   \n",
       "3 -132  33026                                                     1575971586   \n",
       "4 -132  33025  Вышка в прошлом году запустила новый проект, о...  1575971433   \n",
       "5 -132  33024  Поздравляем! Основоположник \"Русских хакеров\" ...  1575971123   \n",
       "6 -132  33023  Опубликованы решения Ученого совета по стоимос...  1575970990   \n",
       "7 -132  33022                                                     1575969388   \n",
       "8 -132  33021                                                     1575878182   \n",
       "9 -132  33019  Вакансия для наших студентов от Леруа Мерлен h...  1575878062   \n",
       "\n",
       "    4  5  \n",
       "0   8  0  \n",
       "1  13  2  \n",
       "2   4  0  \n",
       "3   8  1  \n",
       "4   8  0  \n",
       "5   6  0  \n",
       "6   1  0  \n",
       "7   4  0  \n",
       "8   3  0  \n",
       "9   4  0  "
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head(10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ура! Осталось только дать внятные названия столбцам и разобраться, почему дата представлена в таком виде. что делать со столбцами, мы уже знаем."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>from_id</th>\n",
       "      <th>id</th>\n",
       "      <th>text</th>\n",
       "      <th>date</th>\n",
       "      <th>likes</th>\n",
       "      <th>reposts</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>-132</td>\n",
       "      <td>33029</td>\n",
       "      <td>Что меня огорчает</td>\n",
       "      <td>1575971849</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>-132</td>\n",
       "      <td>33028</td>\n",
       "      <td></td>\n",
       "      <td>1575971665</td>\n",
       "      <td>13</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>-132</td>\n",
       "      <td>33027</td>\n",
       "      <td></td>\n",
       "      <td>1575971625</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>-132</td>\n",
       "      <td>33026</td>\n",
       "      <td></td>\n",
       "      <td>1575971586</td>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>-132</td>\n",
       "      <td>33025</td>\n",
       "      <td>Вышка в прошлом году запустила новый проект, о...</td>\n",
       "      <td>1575971433</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>5</td>\n",
       "      <td>-132</td>\n",
       "      <td>33024</td>\n",
       "      <td>Поздравляем! Основоположник \"Русских хакеров\" ...</td>\n",
       "      <td>1575971123</td>\n",
       "      <td>6</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>6</td>\n",
       "      <td>-132</td>\n",
       "      <td>33023</td>\n",
       "      <td>Опубликованы решения Ученого совета по стоимос...</td>\n",
       "      <td>1575970990</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>7</td>\n",
       "      <td>-132</td>\n",
       "      <td>33022</td>\n",
       "      <td></td>\n",
       "      <td>1575969388</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>8</td>\n",
       "      <td>-132</td>\n",
       "      <td>33021</td>\n",
       "      <td></td>\n",
       "      <td>1575878182</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>9</td>\n",
       "      <td>-132</td>\n",
       "      <td>33019</td>\n",
       "      <td>Вакансия для наших студентов от Леруа Мерлен h...</td>\n",
       "      <td>1575878062</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   from_id     id                                               text  \\\n",
       "0     -132  33029                                  Что меня огорчает   \n",
       "1     -132  33028                                                      \n",
       "2     -132  33027                                                      \n",
       "3     -132  33026                                                      \n",
       "4     -132  33025  Вышка в прошлом году запустила новый проект, о...   \n",
       "5     -132  33024  Поздравляем! Основоположник \"Русских хакеров\" ...   \n",
       "6     -132  33023  Опубликованы решения Ученого совета по стоимос...   \n",
       "7     -132  33022                                                      \n",
       "8     -132  33021                                                      \n",
       "9     -132  33019  Вакансия для наших студентов от Леруа Мерлен h...   \n",
       "\n",
       "         date  likes  reposts  \n",
       "0  1575971849      8        0  \n",
       "1  1575971665     13        2  \n",
       "2  1575971625      4        0  \n",
       "3  1575971586      8        1  \n",
       "4  1575971433      8        0  \n",
       "5  1575971123      6        0  \n",
       "6  1575970990      1        0  \n",
       "7  1575969388      4        0  \n",
       "8  1575878182      3        0  \n",
       "9  1575878062      4        0  "
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.columns = ['from_id', 'id', 'text', 'date', 'likes', 'reposts']\n",
    "df.head(10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "С датой все интереснее. То, что указано в столбце `date`, это дата в виде UNIX-времени (POSIX-времени). Это число секунд, прошедших с 1 января 1970 года. Несмотря на то, что такой формат даты-времени кажется необычным, он довольно широко распространен в разных системах и приложениях (см. подробнее [здесь](https://ru.wikipedia.org/wiki/Unix-%D0%B2%D1%80%D0%B5%D0%BC%D1%8F)). Этот факт, конечно, радует, но хочется получить дату в более человеческом формате. Давайте напишем функцию для перевода UNIX-времени в формат *год-месяц-день-часы-минуты-секунды*. Для этого нам понадобится модуль *datetime*."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
    "from datetime import datetime"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "def date_norm(date):\n",
    "    d = datetime.fromtimestamp(date) # timestamp - UNIX-время в виде строки\n",
    "    str_d = d.strftime(\"%Y-%m-%d %H:%M:%S\") # %Y-%m-%d %H:%M:%S - год-месяц-день, часы:мин:сек\n",
    "    return str_d"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Применим нашу функцию к элементам столбца *date* и создадим новый – *date_norm*."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [],
   "source": [
    "df['date_norm'] = df.date.apply(date_norm)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>from_id</th>\n",
       "      <th>id</th>\n",
       "      <th>text</th>\n",
       "      <th>date</th>\n",
       "      <th>likes</th>\n",
       "      <th>reposts</th>\n",
       "      <th>date_norm</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>-132</td>\n",
       "      <td>33029</td>\n",
       "      <td>Что меня огорчает</td>\n",
       "      <td>1575971849</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:57:29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>-132</td>\n",
       "      <td>33028</td>\n",
       "      <td></td>\n",
       "      <td>1575971665</td>\n",
       "      <td>13</td>\n",
       "      <td>2</td>\n",
       "      <td>2019-12-10 12:54:25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>-132</td>\n",
       "      <td>33027</td>\n",
       "      <td></td>\n",
       "      <td>1575971625</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:53:45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>-132</td>\n",
       "      <td>33026</td>\n",
       "      <td></td>\n",
       "      <td>1575971586</td>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "      <td>2019-12-10 12:53:06</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>-132</td>\n",
       "      <td>33025</td>\n",
       "      <td>Вышка в прошлом году запустила новый проект, о...</td>\n",
       "      <td>1575971433</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:50:33</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   from_id     id                                               text  \\\n",
       "0     -132  33029                                  Что меня огорчает   \n",
       "1     -132  33028                                                      \n",
       "2     -132  33027                                                      \n",
       "3     -132  33026                                                      \n",
       "4     -132  33025  Вышка в прошлом году запустила новый проект, о...   \n",
       "\n",
       "         date  likes  reposts            date_norm  \n",
       "0  1575971849      8        0  2019-12-10 12:57:29  \n",
       "1  1575971665     13        2  2019-12-10 12:54:25  \n",
       "2  1575971625      4        0  2019-12-10 12:53:45  \n",
       "3  1575971586      8        1  2019-12-10 12:53:06  \n",
       "4  1575971433      8        0  2019-12-10 12:50:33  "
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Можно разбить на части дату и время, а не сохранять одной строкой. Для этого нужно применить метод `.split()` для строк и «раздвинуть» столбцы – после разбиения получить не один столбец, а сразу несколько. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0      [2019-12-10, 12:57:29]\n",
       "1      [2019-12-10, 12:54:25]\n",
       "2      [2019-12-10, 12:53:45]\n",
       "3      [2019-12-10, 12:53:06]\n",
       "4      [2019-12-10, 12:50:33]\n",
       "                ...          \n",
       "295    [2018-01-23, 14:43:19]\n",
       "296    [2018-01-17, 08:50:56]\n",
       "297    [2018-01-10, 11:32:29]\n",
       "298    [2018-01-10, 11:24:29]\n",
       "299    [2018-01-05, 15:13:01]\n",
       "Name: date_norm, Length: 300, dtype: object"
      ]
     },
     "execution_count": 27,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['date_norm'].str.split() # результат разбиения – набор списков"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:57:29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:54:25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:53:45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:53:06</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:50:33</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>295</td>\n",
       "      <td>2018-01-23</td>\n",
       "      <td>14:43:19</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>296</td>\n",
       "      <td>2018-01-17</td>\n",
       "      <td>08:50:56</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>297</td>\n",
       "      <td>2018-01-10</td>\n",
       "      <td>11:32:29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>298</td>\n",
       "      <td>2018-01-10</td>\n",
       "      <td>11:24:29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>299</td>\n",
       "      <td>2018-01-05</td>\n",
       "      <td>15:13:01</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>300 rows × 2 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "              0         1\n",
       "0    2019-12-10  12:57:29\n",
       "1    2019-12-10  12:54:25\n",
       "2    2019-12-10  12:53:45\n",
       "3    2019-12-10  12:53:06\n",
       "4    2019-12-10  12:50:33\n",
       "..          ...       ...\n",
       "295  2018-01-23  14:43:19\n",
       "296  2018-01-17  08:50:56\n",
       "297  2018-01-10  11:32:29\n",
       "298  2018-01-10  11:24:29\n",
       "299  2018-01-05  15:13:01\n",
       "\n",
       "[300 rows x 2 columns]"
      ]
     },
     "execution_count": 28,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['date_norm'].str.split(expand = True) # теперь расширили – 2 столбца "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {},
   "outputs": [],
   "source": [
    "new_dat = df['date_norm'].str.split(expand = True) # сохраняем\n",
    "df['Date'] = new_dat[0] # первый столбец – в Date\n",
    "df['Time'] = new_dat[1]  # второй столбец – в Time"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>from_id</th>\n",
       "      <th>id</th>\n",
       "      <th>text</th>\n",
       "      <th>date</th>\n",
       "      <th>likes</th>\n",
       "      <th>reposts</th>\n",
       "      <th>date_norm</th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>-132</td>\n",
       "      <td>33029</td>\n",
       "      <td>Что меня огорчает</td>\n",
       "      <td>1575971849</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:57:29</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:57:29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>-132</td>\n",
       "      <td>33028</td>\n",
       "      <td></td>\n",
       "      <td>1575971665</td>\n",
       "      <td>13</td>\n",
       "      <td>2</td>\n",
       "      <td>2019-12-10 12:54:25</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:54:25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>-132</td>\n",
       "      <td>33027</td>\n",
       "      <td></td>\n",
       "      <td>1575971625</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:53:45</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:53:45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>-132</td>\n",
       "      <td>33026</td>\n",
       "      <td></td>\n",
       "      <td>1575971586</td>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "      <td>2019-12-10 12:53:06</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:53:06</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>-132</td>\n",
       "      <td>33025</td>\n",
       "      <td>Вышка в прошлом году запустила новый проект, о...</td>\n",
       "      <td>1575971433</td>\n",
       "      <td>8</td>\n",
       "      <td>0</td>\n",
       "      <td>2019-12-10 12:50:33</td>\n",
       "      <td>2019-12-10</td>\n",
       "      <td>12:50:33</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   from_id     id                                               text  \\\n",
       "0     -132  33029                                  Что меня огорчает   \n",
       "1     -132  33028                                                      \n",
       "2     -132  33027                                                      \n",
       "3     -132  33026                                                      \n",
       "4     -132  33025  Вышка в прошлом году запустила новый проект, о...   \n",
       "\n",
       "         date  likes  reposts            date_norm        Date      Time  \n",
       "0  1575971849      8        0  2019-12-10 12:57:29  2019-12-10  12:57:29  \n",
       "1  1575971665     13        2  2019-12-10 12:54:25  2019-12-10  12:54:25  \n",
       "2  1575971625      4        0  2019-12-10 12:53:45  2019-12-10  12:53:45  \n",
       "3  1575971586      8        1  2019-12-10 12:53:06  2019-12-10  12:53:06  \n",
       "4  1575971433      8        0  2019-12-10 12:50:33  2019-12-10  12:50:33  "
      ]
     },
     "execution_count": 30,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Всё! Материалы о разных методах и функциях для `vk.api` можно найти в [официальной документации](https://vk.com/dev/manuals). "
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}