{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Основы программирования в Python\n", "\n", "## Домашнее задание 8 (часть 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Сгрузить с помощью библиотек `requests` и `BeautifulSoup` данные с html-страницы. В каком формате сохранять данные на предварительном этапе (список списков, кортежей, словарь, совершенно не важно).\n", "2. Сохранить сгруженные данные в формате датафрейма `pandas`. Присвоить столбцам таблицы внятные названия. При необходимости преобразовать типы данных в столбцах (чтобы числовые данные имели формат `float` или `integer`). Если в таблице присутствует «мусор», отфильтровать ненужные строки.\n", "3. Выгрузить получившийся датафрейм в csv-файл, назвать `html-<>.csv`, где вместо `<>` вставить свою фамилию.\n", "4. Загрузить ipynb-файл с кодом и полученный csv-файл [сюда](https://www.dropbox.com/request/a6v6mwwgIZ76UMB3hvpQ), на Dropbox." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Вариант 1 (на 10)**\n", "\n", "Результаты президентских выборов 2018 года в Бурятии. [Ссылка](http://www.vybory.izbirkom.ru/region/region/izbirkom?action=show&root=1000004&tvd=100100084849070&vrn=100100084849062®ion=0&global=true&sub_region=0&prver=0&pronetvd=null&vibid=100100084849070&type=227) на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной территориальной избирательной комиссии (одному району), по которой представлены все 20 показателей (проценты за кандидатов не нужны, достаточно абсолютного числа голосов). В таблице должен быть 21 столбец (название ТИК и 20 показателей). \n", "\n", "**Вариант 2 (на 8-9)**\n", "\n", "Данные по Международному индексу счастья и его компонент за 2012 год. [Ссылка](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B6%D0%B4%D1%83%D0%BD%D0%B0%D1%80%D0%BE%D0%B4%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81_%D1%81%D1%87%D0%B0%D1%81%D1%82%D1%8C%D1%8F) на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной стране. В таблице должно быть 5 столбцов: *название страны*, *HPI*, *Удовлетворенность жизнью*, *Ожидаемая продолжительность жизни, Экологический след*.\n", "\n", "**Вариант 3 (на 7)**\n", "\n", "Список курсов образовательной программы «Политология». Ссылки на страницы [1](https://www.hse.ru/ba/political/courses), [2](https://www.hse.ru/ba/political/courses/page2.html?year=2018), [3](https://www.hse.ru/ba/political/courses/page3.html?year=2018), [4](https://www.hse.ru/ba/political/courses/page4.html?year=2018) (так как все курсы не умещаются на одной). Каждая строка в итоговом датафрейме должна соответствовать одному курсу. В таблице должно быть 4 столбца: название курса, ссылка на страницу курса, статус курса (обязательный, по выбору и проч.), язык курса." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" } }, "nbformat": 4, "nbformat_minor": 2 }