{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "-uy2mgLQFdGk" }, "source": [ "# Некоторые примеры парсинга с BeautifulSoup и Pandas\n", "\n", "*Алла Тамбовцева*" ] }, { "cell_type": "markdown", "metadata": { "id": "3oLSrfOiGDow" }, "source": [ "Импортируем библиотеки и функцию `BeautifulSoup` (понадобятся для разных примеров ниже):\n", "\n", "* `requests` для отправки запроса и получения кода HTML веб-страницы;\n", "* `bs4` для поиска тэгов в коде HTML;\n", "* `pandas` для обработки полученной информации и приведения ее к табличному виду." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "id": "k0qoHH-Ikb6h" }, "outputs": [], "source": [ "import requests\n", "import pandas as pd\n", "from bs4 import BeautifulSoup" ] }, { "cell_type": "markdown", "metadata": { "id": "2WxjHswNFEDj" }, "source": [ "### Сюжет 1. Парсинг таблиц: BeautifulSoup vs Pandas" ] }, { "cell_type": "markdown", "metadata": { "id": "UDMQF7bMGKkq" }, "source": [ "Для игрушечного примера создадим строку с кодом HTML для маленькой таблицы с двумя строками и тремя столбцами:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "ObRr1F61kG1D" }, "outputs": [], "source": [ "# tr – table row (строка), \n", "# th – table header (ячейка с заголовком столбца), \n", "# td - table data (ячейка с данными)\n", "\n", "\n", "table = \"\"\"\n", "\n", " \n", " \n", " \n", "
idnamemark
1Anna7
3Ben6
\n", "\"\"\"" ] }, { "cell_type": "markdown", "metadata": { "id": "Wftv8kb7GR77" }, "source": [ "Посмотрим на то, как эта таблица выглядит. Для этого скопируем строку с кодом HTML без кавычек в ячейку Jupyter Notebook и изменим ее тип на *Markdown*, он позволит преобразовать код в таблицу и покажет ее на экране:" ] }, { "cell_type": "markdown", "metadata": { "id": "JYw3R8qYlt6L" }, "source": [ "\n", " \n", " \n", " \n", "
idnamemark
1Anna7
3Ben6
" ] }, { "cell_type": "markdown", "metadata": { "id": "O5CniC8KHKOa" }, "source": [ "Сконвертируем строку `table` (тип *string*) в объект `BeautifulSoup` для удобства поиска по тэгам:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "e-_8IU6zlvVz", "outputId": "e0495171-0389-4e8a-8c82-8588d804590d" }, "outputs": [ { "data": { "text/plain": [ "\n", "\n", "\n", "\n", "
idnamemark
1Anna7
3Ben6
\n", "" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tab = BeautifulSoup(table)\n", "tab" ] }, { "cell_type": "markdown", "metadata": { "id": "J0gyLHfwHSoN" }, "source": [ "Найдем все ячейки с данными по тэгу `` и извлечем из кода HTML текст:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "5i2sI4cFmGWi", "outputId": "e8e42652-0e2f-41a8-9bc8-df0975f27707" }, "outputs": [ { "data": { "text/plain": [ "['1', 'Anna', '7', '3', 'Ben', '6']" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tds = tab.find_all(\"td\")\n", "values = [v.text for v in tds]\n", "values" ] }, { "cell_type": "markdown", "metadata": { "id": "IHuMrXw9Hsy3" }, "source": [ "Теперь, чтобы получить полноценную таблицу, нужно разбить список на части (две строки) и преобразовать в датафрейм. Эту задачу можно решать по-разному. Мы преобразуем список в массив и разобьем его на два массива одинаковой длины через функцию `split()` из библиотеки `numpy`:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "id": "VJBwBhbLmP-6" }, "outputs": [], "source": [ "import numpy as np" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 112 }, "id": "hDoM-Nxjm5gZ", "outputId": "b1d87c83-3386-497e-df4a-fc7035f5ab77" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
012
01Anna7
13Ben6
\n", "
" ], "text/plain": [ " 0 1 2\n", "0 1 Anna 7\n", "1 3 Ben 6" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.DataFrame(np.split(np.array(values), 2)) " ] }, { "cell_type": "markdown", "metadata": { "id": "1766rlr6IX4I" }, "source": [ "Итак, мы посмотрели, как можно с помощью BeautifulSoup, Numpy и Pandas справиться с парсингом фрагмента HTML-кода, содержащим таблицу. На самом деле, можно было поступить гораздо проще – задействовать специальную функцию `read_html()` из библиотеки `pandas`. Вернемся к строке `table` с кодом HTML (преобразовывать ее в объект BeautifulSoup не нужно) и воспользуемся этой функцией:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 112 }, "id": "boJ5ycaGm-Lp", "outputId": "5f146743-ec3f-4511-973b-6d5dcc619713" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idnamemark
01Anna7
13Ben6
\n", "
" ], "text/plain": [ " id name mark\n", "0 1 Anna 7\n", "1 3 Ben 6" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# по умолчанию считывает все таблицы и возвращает все таблицы из HTML в виде списка\n", "# здесь одна – извлекаем элемент с индексом 0\n", "\n", "pd.read_html(table)[0] " ] }, { "cell_type": "markdown", "metadata": { "id": "Pm_QkNg-JLkw" }, "source": [ "Теперь перейдем к более продвинутой задаче. Зайдем на сайт Левада-Центра и найдем на [странице](https://www.levada.ru/indikatory/) с индикаторами одобрения органов власти первую таблицу с данными (под первым графиком, имеет индекс 0):" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "id": "dcwOWVsQngsZ" }, "outputs": [], "source": [ "page = requests.get(\"https://www.levada.ru/indikatory/\")\n", "soup = BeautifulSoup(page.text)\n", "tab0 = soup.find_all(\"table\", {\"class\" : \"datatable\"})[0]" ] }, { "cell_type": "markdown", "metadata": { "id": "LqtfEd4TJn2I" }, "source": [ "Преобразуем объект `tab0` в строку, так как функция `read_html()` умеет работать только с обычными строками или файлами, а не с объектами `BeautifulSoup`, и создаем датафрейм на основе кода HTML, указав, что первая строка таблицы содержит заголовки столбцов (`header`):" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 237 }, "id": "Aki6dqsKpSDT", "outputId": "4a0e9635-5937-49c7-c969-a17f0375e6f5" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
08.199909.199910.199911.199912.199901.200002.200003.200004.200005.2000...02.202203.202204.202205.202206.202207.202208.202209.202210.202211.2022
031536580798475707772...71838283838383777979
133272012131017211517...27151715161515211918
237201588789811...1212122223
\n", "

3 rows × 278 columns

\n", "
" ], "text/plain": [ " 08.1999 09.1999 10.1999 11.1999 12.1999 01.2000 02.2000 03.2000 \\\n", "0 31 53 65 80 79 84 75 70 \n", "1 33 27 20 12 13 10 17 21 \n", "2 37 20 15 8 8 7 8 9 \n", "\n", " 04.2000 05.2000 ... 02.2022 03.2022 04.2022 05.2022 06.2022 \\\n", "0 77 72 ... 71 83 82 83 83 \n", "1 15 17 ... 27 15 17 15 16 \n", "2 8 11 ... 1 2 1 2 1 \n", "\n", " 07.2022 08.2022 09.2022 10.2022 11.2022 \n", "0 83 83 77 79 79 \n", "1 15 15 21 19 18 \n", "2 2 2 2 2 3 \n", "\n", "[3 rows x 278 columns]" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_html(str(tab0), header = 0)[0]\n", "df" ] }, { "cell_type": "markdown", "metadata": { "id": "gtS8g-ynJ8pZ" }, "source": [ "Ура! Одной строчкой кода мы получили красивую таблицу вместо «сырого» фрагмента HTML. Давайте транспонируем полученный датафрейм, чтобы получить более привычный вариант таблицы (и удобный для визуализации, если нас интересует динамика процента одобряющий и неодобряющих):" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "id": "sU4UPKl-peUR" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
012
08.1999313337
09.1999532720
10.1999652015
11.199980128
12.199979138
............
07.202283152
08.202283152
09.202277212
10.202279192
11.202279183
\n", "

278 rows × 3 columns

\n", "
" ], "text/plain": [ " 0 1 2\n", "08.1999 31 33 37\n", "09.1999 53 27 20\n", "10.1999 65 20 15\n", "11.1999 80 12 8\n", "12.1999 79 13 8\n", "... .. .. ..\n", "07.2022 83 15 2\n", "08.2022 83 15 2\n", "09.2022 77 21 2\n", "10.2022 79 19 2\n", "11.2022 79 18 3\n", "\n", "[278 rows x 3 columns]" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = df.transpose() \n", "df" ] }, { "cell_type": "markdown", "metadata": { "id": "7khV7uQLKdNx" }, "source": [ "Обработаем этот датафрейм:\n", "\n", "* добавим названия столбцов;\n", "* извлечем даты из названией строк (атрибут `index`) и сохраним их в отдельный столбец;\n", "* в качестве названий строк добавим набор целых чисел от 0 до 277;\n", "* переставим столбцы местами – выбирем их в нужном порядке и перезаписываем `df`;" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 424 }, "id": "EW0HrUhVpjg5", "outputId": "3a5defa6-40d8-4d5a-c1c0-b654ccebac33" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
dateyesnono answer
008.1999313337
109.1999532720
210.1999652015
311.199980128
412.199979138
...............
27307.202283152
27408.202283152
27509.202277212
27610.202279192
27711.202279183
\n", "

278 rows × 4 columns

\n", "
" ], "text/plain": [ " date yes no no answer\n", "0 08.1999 31 33 37\n", "1 09.1999 53 27 20\n", "2 10.1999 65 20 15\n", "3 11.1999 80 12 8\n", "4 12.1999 79 13 8\n", ".. ... ... .. ...\n", "273 07.2022 83 15 2\n", "274 08.2022 83 15 2\n", "275 09.2022 77 21 2\n", "276 10.2022 79 19 2\n", "277 11.2022 79 18 3\n", "\n", "[278 rows x 4 columns]" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.columns = [\"yes\", \"no\", \"no answer\"]\n", "df[\"date\"] = df.index\n", "df.index = range(0, 278) \n", "df = df[[\"date\", \"yes\", \"no\", \"no answer\"]]\n", "df" ] }, { "cell_type": "markdown", "metadata": { "id": "fI4q8fExLaGJ" }, "source": [ "Проверим типы столбцов:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "5uRoBmkbr1-q", "outputId": "ec6bab90-ff41-4418-e852-3d957646e1d8" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "RangeIndex: 278 entries, 0 to 277\n", "Data columns (total 4 columns):\n", "date 278 non-null object\n", "yes 278 non-null int64\n", "no 278 non-null int64\n", "no answer 278 non-null int64\n", "dtypes: int64(3), object(1)\n", "memory usage: 8.8+ KB\n" ] } ], "source": [ "df.info()" ] }, { "cell_type": "markdown", "metadata": { "id": "ikR5ugSYLkku" }, "source": [ "Все отлично, числовые данные сохранены как целые числа, но дату стоит перевести в специальный формат `datetime`, иначе сортировать данные и визуализировать их будет сложно – текст с датами не будет упорядочиваться хронологически. Воспользуемся функцией `to_datetime()` и укажем, в каком формате у нас сохранены даты (про форматы и соответствующие аббревиатуры можно почитать [здесь](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)):" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "id": "k812HffNr_Qx" }, "outputs": [], "source": [ "# format: в каком формате даты в строке\n", "# %m - шаблон для месяцев в числовом виде\n", "# %Y – шаблон для лет в числовом виде (Y - 4 цифры, y – 2 цифры)\n", "\n", "df[\"date\"] = pd.to_datetime(df[\"date\"], format = \"%m.%Y\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Тип столбца изменился:" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "RangeIndex: 278 entries, 0 to 277\n", "Data columns (total 4 columns):\n", "date 278 non-null datetime64[ns]\n", "yes 278 non-null int64\n", "no 278 non-null int64\n", "no answer 278 non-null int64\n", "dtypes: datetime64[ns](1), int64(3)\n", "memory usage: 8.8 KB\n" ] } ], "source": [ "df.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "И для определенности к каждой дате (а у нас был только месяц и год) приписалось число – первый день месяца:" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
dateyesnono answer
01999-08-01313337
11999-09-01532720
21999-10-01652015
31999-11-0180128
41999-12-0179138
\n", "
" ], "text/plain": [ " date yes no no answer\n", "0 1999-08-01 31 33 37\n", "1 1999-09-01 53 27 20\n", "2 1999-10-01 65 20 15\n", "3 1999-11-01 80 12 8\n", "4 1999-12-01 79 13 8" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.head()" ] }, { "cell_type": "markdown", "metadata": { "id": "1gtiUDLKMn2l" }, "source": [ "Проверим, что при визуализации динамики все будет в порядке, хронология не будет нарушена. Построим маленький базовый график с помощью функции `plot()`, без особых настроек, для примера. Импортируем модуль `pyplot`:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "id": "6bWX-roFsUdQ" }, "outputs": [], "source": [ "from matplotlib import pyplot as plt" ] }, { "cell_type": "markdown", "metadata": { "id": "wPJeLenUMwYG" }, "source": [ "Давайте в одной координатной плоскости построим сразу два графика – покажем динамику для процента одобряющих и неодобряющих деятельность Владимира Путина:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 283 }, "id": "Nc-pcM6ptHg5", "outputId": "4e6ae9dc-9295-4174-83d6-6ace24bf06db" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/opt/anaconda3/lib/python3.7/site-packages/pandas/plotting/_matplotlib/converter.py:103: FutureWarning: Using an implicitly registered datetime converter for a matplotlib plotting method. The converter was registered by pandas on import. Future versions of pandas will require you to explicitly register matplotlib converters.\n", "\n", "To register the converters:\n", "\t>>> from pandas.plotting import register_matplotlib_converters\n", "\t>>> register_matplotlib_converters()\n", " warnings.warn(msg, FutureWarning)\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# label – чтобы назвать каждый график и отразить это в легенде\n", "\n", "plt.plot(df[\"date\"], df[\"yes\"], label = \"Approve\")\n", "plt.plot(df[\"date\"], df[\"no\"], label = \"Don't approve\")\n", "plt.legend() " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Отлично! График готов, похож на аналогичный график на сайте Левада-Центра. Конечно, размер и масштаб у этого графика не очень подходящие, но это всегда можно исправть (см. дополнительные материалы к занятию)." ] }, { "cell_type": "markdown", "metadata": { "id": "TN7_BVysNDm-" }, "source": [ "### Сюжет 2. Очень краткое введение в регулярные выражения" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Регулярные выражения – выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. \n", "\n", "В самом простом случае в качестве регулярного выражения может использоваться обычная строка. Например, чтобы найти в предложении *Кошка сидит под столом.* слово *Кошка*, ничего специального применять не нужно, достаточно воспользоваться оператором `in`. Если нас интересует слово *кошка* в любом регистре, то это уже более интересная задача. Правда, ее все еще можно решить без регулярных выражений, приведя все слова в строке к нижнему регистру. А что, если у нас будет текст подлиннее, и в нем необходимо «обнаружить» *кошку* в разных падежах? И еще производные слова вроде *кошечка*? Тут уже удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слова *кошка*. Давайте немного потренируемся (но не на кошках)." ] }, { "cell_type": "markdown", "metadata": { "id": "vLHN_BrgNIXu" }, "source": [ "Импортируем модуль `re` для работы с регулярными выражениями:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "id": "_ytzc_5RthdZ" }, "outputs": [], "source": [ "import re" ] }, { "cell_type": "markdown", "metadata": { "id": "9-G5FC1tNJ-1" }, "source": [ "В качестве игрушечного примера возьмем обычную строку со странным текстом (текст невнятный, но отражает эволюцию смеха на пути к сессии):" ] }, { "cell_type": "code", "execution_count": 19, "metadata": { "id": "nV70p74VuSEz" }, "outputs": [], "source": [ "data0 = \"ha haha ha-ha hah heh. hse.\"" ] }, { "cell_type": "markdown", "metadata": { "id": "K3taewV-NMrF" }, "source": [ "Найдем в этой строке все подстроки, которые соответствуют шаблону `h.h` – вместо точки может быть любой символ (буква, цифра, пробел и прочие знаки). Воспользуемся функцией `findall()`, она возвращает список совпадений:" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "6BOVThXLuhR4", "outputId": "6f97850c-a773-45b3-b65d-a01a911cbf86" }, "outputs": [ { "data": { "text/plain": [ "['hah', 'hah', 'heh']" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "re.findall(\"h.h\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "aceJiknvNYvK" }, "source": [ "Если нужны именно точки, символ `.` нужно экранировать с помощью `\\`, в такой записи слэш показывает, что мы ищем именно точку, а не используем ее как специальный символ, принятый в синтаксисе регулярных выражений. Итак, найдем все «слова», начинающиеся с `h`, состоящие из четырех символов, последний из которых – точка:" ] }, { "cell_type": "code", "execution_count": 21, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "H4M6-2aPu1gA", "outputId": "e1b2faf1-47e3-43d6-bec1-2257300be63c" }, "outputs": [ { "data": { "text/plain": [ "['heh.', 'hse.']" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "re.findall(\"h..\\.\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "Y-UXil5yOHBv" }, "source": [ "Точка – далеко не единственный специальный символ в регулярных выражениях. Так, символ `+` показывает, что нас интересуют случаи, когда элемент, стоящий слева от `+`, встречается не менее одного раза. Найдем подстроки, где точно есть буква `h`, а за ней стоит хотя бы одна буква `a`:" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "4m7Kp9W2vNwQ", "outputId": "461de9c2-cda6-46c9-d3e4-c441d3d50a64" }, "outputs": [ { "data": { "text/plain": [ "['ha', 'ha', 'ha', 'ha', 'ha', 'ha']" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# подстроки с h с хотя бы с одной буквой a\n", "re.findall(\"ha+\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "SvmjXnV7OQ-d" }, "source": [ "Если мы допускаем, что буквы `a` может не быть совсем, нам понадобится другой символ – символ `*` (ноль и более вхождений элемента, стоящего слева от `*`):" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Jx8-JzLHvrTI", "outputId": "5fa0964a-695b-4c5b-f77c-87f8aaa33d7f" }, "outputs": [ { "data": { "text/plain": [ "['ha', 'ha', 'ha', 'ha', 'ha', 'ha', 'h', 'h', 'h', 'h']" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# подстроки, где точно есть h, а буква a встречается или нет\n", "re.findall(\"ha*\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "KZ1atElBQQkP" }, "source": [ "А если нас интересуют случаи, когда какой-то символ встречается ноль раз или один раз, то пригодится символ `?`:" ] }, { "cell_type": "code", "execution_count": 24, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "2bZYXp_Mv2e6", "outputId": "8f390bfe-48a9-4b79-92ed-b60866e21a6c" }, "outputs": [ { "data": { "text/plain": [ "['haha', 'ha-ha']" ] }, "execution_count": 24, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# подстроки haha или ha-ha, с дефисом посередине и без него\n", "re.findall(\"ha-?ha\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "lhqrrDl2SNoY" }, "source": [ "Особую роль в регулярных выражениях играют скобки разного вида. Круглые скобки могут использоваться для объединения символов в группы, а квадратные – для перечисления всех вариантов, которые могут встретиться в некотором месте строки:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['hah ', 'heh.']" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# hah или heh с точкой или пробелом на конце\n", "# \\s – обозначение пробела (от space)\n", "\n", "re.findall(\"h[ae]h[\\.\\s]\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "lhqrrDl2SNoY" }, "source": [ "В квадратные скобки также можно вписывать последовательности – готовые перечни известных символов:\n", "\n", "* `[a-z]`: строчные буквы английского алфавита;\n", "* `[A-Z]`: заглавные буквы английского алфавита;\n", "* `[а-я]`: строчные буквы русского алфавита;\n", "* `[А-Я]`: заглавные буквы русского алфавита;\n", "* `[0-9]`: цифры от 0 до 9.\n", "\n", "Проверим, есть ли в нашей строке цифры:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "re.findall(\"[0-9]\", data0) # нет, мы и не ждали" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "А теперь проверим, есть ли в нашей строке последовательности ровно из трех строчных английских букв. Для этого пригодится еще один вид скобок – фигурные. В фигурных скобках указывают количество символов, которое необходимо найти:" ] }, { "cell_type": "code", "execution_count": 27, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "fc8krE_DwZq5", "outputId": "dbb589fe-3f26-44c0-d14c-3d706cfa0537" }, "outputs": [ { "data": { "text/plain": [ "['hah', 'hah', 'heh', 'hse']" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# последовательности ровно из трех английских букв\n", "re.findall(\"[a-z]{3}\", data0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если мы не знаем точное количество символов, но знаем интервал, его границы тоже можно указать в фигурных скобках через запятую:" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['haha', 'hah', 'heh', 'hse']" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# последовательности из 3-4 английских букв\n", "re.findall(\"[a-z]{3,4}\", data0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Границы интервала можно опускать:" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['haha', 'hah', 'heh', 'hse']" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# последовательности не менее, чем из 3 английских букв\n", "re.findall(\"[a-z]{3,}\", data0)" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['ha',\n", " '',\n", " 'hah',\n", " 'a',\n", " '',\n", " 'ha',\n", " '',\n", " 'ha',\n", " '',\n", " 'hah',\n", " '',\n", " 'heh',\n", " '',\n", " '',\n", " 'hse',\n", " '',\n", " '']" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# последовательности не более, чем из 3 английских букв (пустые тоже есть)\n", "re.findall(\"[a-z]{,3}\", data0)" ] }, { "cell_type": "markdown", "metadata": { "id": "OevxBgKTTHa0" }, "source": [ "Давайте повнимательнее посмотрим на поиск цифр и чисел, может пригодиться, например, для обработки номеров телефонов или адресов. Создадим другую, более вразумительную строку:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": { "id": "Sifp7LaUwv-Q" }, "outputs": [], "source": [ "data1 = \"+7(906)000-11-23 Alla Borisovna\" " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Пока просто найдем все цифры:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "GQF5D7Eow9AA", "outputId": "b18d9147-8094-4ced-ebd1-f8b9268d559c" }, "outputs": [ { "data": { "text/plain": [ "['7', '9', '0', '6', '0', '0', '0', '1', '1', '2', '3']" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "re.findall(\"[0-9]\", data1)" ] }, { "cell_type": "markdown", "metadata": { "id": "ECFXyCdOTNyN" }, "source": [ "Для поиска цифр вместо последовательности часто используют ее сокращенную версию – специальный символ `\\d` (от *digits*, экранируется с помощью слэша, чтобы не путать с обычной буквой *d*):" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "gDVy6IVOTeSM", "outputId": "4a754bfd-02a8-41ec-e381-460dd838ad83" }, "outputs": [ { "data": { "text/plain": [ "['7', '9', '0', '6', '0', '0', '0', '1', '1', '2', '3']" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "re.findall(\"\\d\", data1)" ] }, { "cell_type": "markdown", "metadata": { "id": "8Bv02KhzThBU" }, "source": [ "Цифры нашли, но ведь цифры в строке – далеко не всегда номер телефона, теоретически они могут быть и в адресе (как обычном, так и электронном), и в названии сайта. Напишем паттерн для поиска именно номера телефона в предположении, что:\n", "\n", "* телефон точно начинается с `+7`;\n", "* после `+7` обязательно стоят скобки вокруг первых трех цифр;\n", "* а вот дефисы между группами цифр могут отсутствовать):" ] }, { "cell_type": "code", "execution_count": 34, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "l6qnvUmQxFwQ", "outputId": "b9166840-31d7-4e76-fae4-987ca05eff35" }, "outputs": [ { "data": { "text/plain": [ "['+7(906)000-11-23']" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# \\+7: экранируем +, чтобы не путать со специальным символом +\n", "# (\\d{3}\\): набор из 3 цифр в скобках\n", "# \\d{3}: набор из 3 цифр\n", "# -?: дефис встречается 0 или 1 раз\n", "# \\d{2}: набор из 2 цифр\n", "\n", "re.findall(\"\\+7\\(\\d{3}\\)\\d{3}-?\\d{2}-?\\d{2}\", data1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если допустить, что телефон может начинаться с `8`, а не только с `+7`, выражение будет выглядеть так:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['+7(906)000-11-23']" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# \\+?: + встречается 0 или 1 раз\n", "# после 7 или 8\n", "\n", "re.findall(\"\\+?[78]\\(\\d{3}\\)\\d{3}-?\\d{2}-?\\d{2}\", data1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Проверим на другой строке:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['+7(906)000-11-23', '8(906)111-00-23']" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data2 = \"+7(906)000-11-23 Alla Borisovna 8(906)111-00-23 Alla Andreevna\" \n", "re.findall(\"\\+?[78]\\(\\d{3}\\)\\d{3}-?\\d{2}-?\\d{2}\", data2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ну, а если допустить, что «приставки» `+7` или `8` может вообще не быть, то понадобится еще один `?`:" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['+7(906)000-11-23', '8(906)111-00-23', '(999)233-00-21']" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data3 = \"+7(906)000-11-23 Alla Borisovna 8(906)111-00-23 Alla Andreevna (999)233-00-21 Alla\" \n", "re.findall(\"\\+?[78]?\\(\\d{3}\\)\\d{3}-?\\d{2}-?\\d{2}\", data3)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Итак, на этом краткое введение в регулярные выражения мы закончим, сейчас увидим, зачем они могут понадобиться при парсинге, даже если мы выгружаем информацию с помощью BeautifulSoup." ] }, { "cell_type": "markdown", "metadata": { "id": "RqvZjUlyTxkf" }, "source": [ "### Сюжет 3. Извлечение информации из кода JavaScript внутри HTML" ] }, { "cell_type": "markdown", "metadata": { "id": "q6wcCvIqT6fP" }, "source": [ "В конце курса по Python в магистратуре у нас было [домашнее задание](https://github.com/allatambov/PyMs2022/blob/main/pyall-hw05.ipynb) на парсинг страницы фильма «Не покидай...» с сайта www.kino-teatr.ru. Сайт некоммерческий, довольно дружелюбный, позволяет свободно выгружать информацию. Но у него есть одна особенность: число лайков и дизлайков, поставленных актерам пользователями, загружается на страницу динамически, то есть автоматически «подтягивается» с сервера при загрузке страницы в определенный момент времени. На практике это выливается в то, что найти нужную информацию по тэгам просто невозможно, ее нет в основном коде HTML. Как быть? Понять, как выглядит запрос данных, который отправляется на сервер, и выяснить, где хранятся нужные нам данные. Мы рассмотрим несложный случай, когда сайт забирает информацию из строки JSON, которая находится на странице, но внутри кода, написанного на JavaScript. Такое можно встретить на страницах с результатами каких-нибудь игр или на сайтах, посвященных динамике цен или курсу валют (другой вопрос, что не всегда JSON прямо так явно находится в том же файле, где и код HTML).\n", "\n", "Так как ранее мы обсуждали довольно базовый парсинг, в домашнем задании не требовалось собирать число лайков и дизлайков, эти значения были даны в виде готовых массивов. Обновим задачу – теперь нам нужно собрать имена актеров и их id, а затем «подтянуть» к этой информации число голосов за и против. \n", "\n", "Начало работы стандартное – загружаем код HTML страницы по ссылке и преобразуем его в объект BeautifulSoup:" ] }, { "cell_type": "code", "execution_count": 38, "metadata": { "id": "TiFPGCxixdgf" }, "outputs": [], "source": [ "page = requests.get(\"https://www.kino-teatr.ru/kino/movie/sov/4319/titr/\")\n", "soup = BeautifulSoup(page.text)" ] }, { "cell_type": "markdown", "metadata": { "id": "ZBvVKfswYOzo" }, "source": [ "Ищем имена актеров – находим блоки с тэгами `
` с классом `film_name` и вытаскиваем из них «чистый» текст:" ] }, { "cell_type": "code", "execution_count": 39, "metadata": { "id": "opB9ZYbQzEmG" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['Лидия Федосеева-Шукшина', 'Вячеслав Невинный', 'Игорь Красавин', 'Варвара Владимирова', 'Светлана Селезнёва', 'Регина Разума', 'Альберт Филозов', 'Артём Тынкасов', 'Елена Антонова', 'Владимир Ставицкий']\n" ] } ], "source": [ "names_raw = soup.find_all(\"div\", {\"class\" : \"film_name\"}) \n", "names = [name.text for name in names_raw]\n", "\n", "print(names[0:10]) # первые 10 для примера" ] }, { "cell_type": "markdown", "metadata": { "id": "mlpJUJ2pYlrj" }, "source": [ "Теперь ищем id, они нам понадобятся для совмещения с информацией по числу голосов за и против:" ] }, { "cell_type": "code", "execution_count": 40, "metadata": { "id": "9oej_Yyk0GA_" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[
\n", "\n", "
Королева Флора — главная роль
\n", "
жена короля Теодора
\n", "
\n", "
,
\n", "\n", "
Король Теодор — главная роль
\n", "
\n", "
]\n" ] } ], "source": [ "divs = soup.find_all(\"div\", {\"class\" : \"actor_film_descript\"}) \n", "print(divs[0:2])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Как можно заметить, числовых id здесь нет, но это легко исправить – забрать значения атрибута `id` через метод `.get()` (вспоминаем о сходстве объектов BeautifulSoup и словарей), разбить их по символу `_` и забрать часть после `_` с индексом 1:" ] }, { "cell_type": "code", "execution_count": 41, "metadata": { "id": "9oej_Yyk0GA_" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['16801', '16800', '16803', '16802', '89473', '124124', '16804', '132138', '56008', '132139']\n" ] } ], "source": [ "ids = [i.get(\"id\").split(\"_\")[1] for i in divs]\n", "print(ids[0:10])" ] }, { "cell_type": "markdown", "metadata": { "id": "V1TUvqEDZtUd" }, "source": [ "Теперь воспользуемся тем, что функция `DataFrame()` из библиотеки pandas умеет превращать в датафрейм не только списки списков или словари, но и списки кортежей. Объединим элементы в список попарно через функцию `zip()` и сконвертируем перечень пар-кортежей в датафрейм:" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[('16801', 'Лидия Федосеева-Шукшина'),\n", " ('16800', 'Вячеслав Невинный'),\n", " ('16803', 'Игорь Красавин'),\n", " ('16802', 'Варвара Владимирова'),\n", " ('89473', 'Светлана Селезнёва'),\n", " ('124124', 'Регина Разума'),\n", " ('16804', 'Альберт Филозов'),\n", " ('132138', 'Артём Тынкасов'),\n", " ('56008', 'Елена Антонова'),\n", " ('132139', 'Владимир Ставицкий')]" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# напоминание: как выглядят элементы в zip()\n", "\n", "list(zip(ids, names))[0:10]" ] }, { "cell_type": "code", "execution_count": 43, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "id": "3r046aGb0i6M", "outputId": "12c956b7-cb32-4e25-f1ec-90113fb60623" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idname
016801Лидия Федосеева-Шукшина
116800Вячеслав Невинный
216803Игорь Красавин
316802Варвара Владимирова
489473Светлана Селезнёва
5124124Регина Разума
616804Альберт Филозов
7132138Артём Тынкасов
856008Елена Антонова
9132139Владимир Ставицкий
1072744Анатолий Рудаков
11132140Юрий Багинян
1262460Александр Денисов
13132141Валентин Букин
1483813Анатолий Голуб
15132142Саша Занько
16132143Вика Яблонская
172030314А. Баутенко
181973004С. Гецингер
191973001Дмитрий Диджиокас
201973002Владимир Зубенко
211973003Владимир Корпусь
221966145Ивар Кумник
231973005Анна Маланкина
241973000Валерий Мороз
25160325Леонид Нечаев
261973006И. Окал
271928641Анна Портная
281973007Ростислав Рахт
291973009В. Славуник
301973008Юрий Шульга
312088754Александр Макарцев
321973010Евгений Герчаков
331973011Сергей Дрейден
34222174Анатолий Тукиш
351973015Виктор Борцов
361973016Михаил Кокшенов
371973012Ольга Машная
381973017Леонид Нечаев
391973020Илья Рутберг
401973019Лариса Удовиченко
411973013Елена Цыплакова
421973014Борис Шувалов
431973018Игорь Ясулович
442496375Н. Острова
452496376Анатолий Тукиш
461914304Павел Бабаков
472496373Улдис-Янис Вейспалс
482022950Сергей Головкин
\n", "
" ], "text/plain": [ " id name\n", "0 16801 Лидия Федосеева-Шукшина\n", "1 16800 Вячеслав Невинный\n", "2 16803 Игорь Красавин\n", "3 16802 Варвара Владимирова\n", "4 89473 Светлана Селезнёва\n", "5 124124 Регина Разума\n", "6 16804 Альберт Филозов\n", "7 132138 Артём Тынкасов\n", "8 56008 Елена Антонова\n", "9 132139 Владимир Ставицкий\n", "10 72744 Анатолий Рудаков\n", "11 132140 Юрий Багинян\n", "12 62460 Александр Денисов\n", "13 132141 Валентин Букин\n", "14 83813 Анатолий Голуб\n", "15 132142 Саша Занько\n", "16 132143 Вика Яблонская\n", "17 2030314 А. Баутенко\n", "18 1973004 С. Гецингер\n", "19 1973001 Дмитрий Диджиокас\n", "20 1973002 Владимир Зубенко\n", "21 1973003 Владимир Корпусь\n", "22 1966145 Ивар Кумник\n", "23 1973005 Анна Маланкина\n", "24 1973000 Валерий Мороз\n", "25 160325 Леонид Нечаев\n", "26 1973006 И. Окал\n", "27 1928641 Анна Портная\n", "28 1973007 Ростислав Рахт\n", "29 1973009 В. Славуник\n", "30 1973008 Юрий Шульга\n", "31 2088754 Александр Макарцев\n", "32 1973010 Евгений Герчаков\n", "33 1973011 Сергей Дрейден\n", "34 222174 Анатолий Тукиш\n", "35 1973015 Виктор Борцов\n", "36 1973016 Михаил Кокшенов\n", "37 1973012 Ольга Машная\n", "38 1973017 Леонид Нечаев\n", "39 1973020 Илья Рутберг\n", "40 1973019 Лариса Удовиченко\n", "41 1973013 Елена Цыплакова\n", "42 1973014 Борис Шувалов\n", "43 1973018 Игорь Ясулович\n", "44 2496375 Н. Острова\n", "45 2496376 Анатолий Тукиш\n", "46 1914304 Павел Бабаков\n", "47 2496373 Улдис-Янис Вейспалс\n", "48 2022950 Сергей Головкин" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "main = pd.DataFrame(zip(ids, names))\n", "main.columns = [\"id\", \"name\"] \n", "main" ] }, { "cell_type": "markdown", "metadata": { "id": "L_GYmQJOaOri" }, "source": [ "Теперь переходим к более сложной части – поиску голосов за и против. Просто найти на странице кнопки красного и зеленого цвета и забрать с них текст не получится:\n", "\n", "![](НП.jpeg)\n", "\n", "Поэтому для этого на нужно найти код JavaScript, где есть записи с числами `plus` и `minus` с привязкой к id актеров. Код JavaScript, если он не вынесен в отдельный файл, заключается в тэги `