{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Python для сбора данных\n", "\n", "*Алла Тамбовцева, НИУ ВШЭ*\n", "\n", "### Работа с `selenium`: продолжение" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Сегодня мы продолжим работать над задачей, поставленной ранее — выгрузка адресов всех участковых избирательных комиссий Ивановской области. Сначала загрузим все необходимые для работы библиотеки и функции:\n", "\n", "* `selenium` — для автоматизации работы в браузере;\n", "* `BeautifulSoup` — для поиска по html-коду;\n", "* `time` — для добавления задержки;\n", "* `pandas` — для сохранения результатов в датафрейм." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "from time import sleep\n", "from bs4 import BeautifulSoup\n", "import pandas as pd" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "from selenium import webdriver as wb\n", "br = wb.Chrome(\"/Users/allat/Downloads/chromedriver\")\n", "\n", "br.implicitly_wait(2) # чтобы страница прогрузилась" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь напишем функцию `get_uik_address()`, которая принимает на вход два аргумента, номер участка и регион, и возвращает строку с адресом. Для этого в тело функции скопируем код с прошлого занятия.\n", "\n", "Только давайте перестрахуемся — напишем выражение с исключением, чтобы в случае, если страница не содержит адреса или загружается некорректно, наш код не ломался. В случае, если всё хорошо (адрес есть), Python будет его сохранять («ветка» c `try`), в случае, если всё плохо (адреса нет ни в каком виде), Python будет записывать вместо него `None` (ветка с `except`) и двигаться дальше. " ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "def get_uik_address(n_uik, reg):\n", " \n", " br.get(\"http://www.cikrf.ru/services/lk_address/?do=find_by_uik\")\n", " uik_field = br.find_element_by_css_selector(\"#uik\")\n", " uik_field.send_keys(n_uik)\n", " \n", " region_field = br.find_element_by_name(\"subject\")\n", " region_field.send_keys(reg)\n", " \n", " button = br.find_element_by_link_text(\"Отправить запрос\")\n", " button.click()\n", " sleep(1) # добавим задержку в 1 секунду\n", " \n", " soup = BeautifulSoup(br.page_source, 'lxml')\n", " texts = [a.text for a in soup.find_all('p')] \n", " \n", " try:\n", " address = list(filter(lambda x: \"Адрес помещения для голосования:\" in x, \n", " texts))[0] \n", " except:\n", " address = None\n", " return n_uik, address" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь попробуем взять несколько номеров участков и посмотреть, что получается в цикле. " ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "uiks = range(200, 216)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "200\n", "201\n", "202\n", "203\n", "204\n", "205\n", "206\n", "207\n", "208\n", "209\n", "210\n", "211\n", "212\n", "213\n", "214\n", "215\n" ] } ], "source": [ "addresses = []\n", "\n", "for u in uiks:\n", " addresses.append(get_uik_address(u, \"Ивановская область\"))\n", " print(u)\n", " sleep(1.5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Работает! Создадим список со всеми номерами избирательных участков Ивановской области:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "ivanovo = range(1, 777) # вроде все, см здесь новый список - http://www.ivanovo.izbirkom.ru/docs/4272/" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Внимание:** исполнение следующей ячейки займет много времени (час-полтора часа). Если просто хотите посмотреть, как это работает (не выгружая информацию по всем участкам), уменьшите правое значение в `range()` в ячейке выше." ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "ivanovo_addr = []\n", "\n", "for i in ivanovo:\n", " ivanovo_addr.append(get_uik_address(i, \"Ивановская область\"))\n", " #print(i)\n", " sleep(1.5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Важно:** периодически открывайте окно браузера, в котором Python ищет избирательные участки! Это не только приятно (смотреть, как в полях для поиска все заполняется без нашего участия), но и полезно: так можно заметить, если что-то пошло не так. История из жизни: опечаталась в букве внутри цикла, Python 777 раз открыл страницу с избирательным участком 244 и сохранил одинаковые адреса. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Создадим датафрейм из списка выше." ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "df = pd.DataFrame(ivanovo_addr)" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
01
01Адрес помещения для голосования: 153012, Ивано...
12Адрес помещения для голосования: 153012, Ивано...
23Адрес помещения для голосования: 153000, Ивано...
34Адрес помещения для голосования: 153012, Ивано...
45Адрес помещения для голосования: 153012, Ивано...
\n", "
" ], "text/plain": [ " 0 1\n", "0 1 Адрес помещения для голосования: 153012, Ивано...\n", "1 2 Адрес помещения для голосования: 153012, Ивано...\n", "2 3 Адрес помещения для голосования: 153000, Ивано...\n", "3 4 Адрес помещения для голосования: 153012, Ивано...\n", "4 5 Адрес помещения для голосования: 153012, Ивано..." ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Сохраним таблицу в Excel-файл:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [], "source": [ "df.to_csv('Ivanovo.xlsx')" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.8" } }, "nbformat": 4, "nbformat_minor": 2 }