{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Программирование на языке Python для сбора и анализа данных\n", "*Семинары ведут: Щуров И.В., Будылин Р.Я., НИУ ВШЭ*\n", "\n", "Данный notebook является набором задач по курсу \n", "«Программирование на языке Python для сбора и анализа данных» \n", "(НИУ ВШЭ, 2014-15). Распространяется по лицензии [CC BY-SA \n", "4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ru).\n", "На [странице курса](http://math-info.hse.ru/s15/m) находятся другие материалы." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Домашнее задание №8\n", "За разные задачи можно получить разное число баллов. Максимум за ДЗ можно набрать 6 баллов. Вы можете решить больше задач, чем требуется, чтобы набрать 6 баллов, чтобы подстраховаться.\n", "\n", "Для предварительной проверки задания нужно скачать данный `ipynb`-файл на свой компьютер, открыть его в IPython Notebook/Jupyter (подробнее о том, как это сделать, см. [здесь](http://math-info.hse.ru/2015-16/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_Python_%D0%B4%D0%BB%D1%8F_%D1%81%D0%B1%D0%BE%D1%80%D0%B0_%D0%B8_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85#.D0.9A.D0.B0.D0.BA_.D0.B8.D1.81.D0.BF.D0.BE.D0.BB.D1.8C.D0.B7.D0.BE.D0.B2.D0.B0.D1.82.D1.8C)) и вставить решение каждой задачи в ячейку для кода, следующую за его условием, запустить эту ячейку, а затем запустить следующую ячейку (в ней содержится тест). Если запуск ячейки с тестом не приводит к появлению ошибки (assertion), значит, всё в порядке, задача решена. Если приводит к появлению ошибки, значит, тест не пройден и нужно искать ошибку.\n", "\n", "Чтобы сдать ДЗ, его надо будет загрузить в [nbgr-x](http://python.math-hse.info) в виде `ipynb`-файла.\n", "\n", "### Библиотеки\n", "Во всех задачах можно использовать библиотеки `requests` и `BeautifulSoup` (`bs4`)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 1. (2 балла.)\n", "Написать функцию `any_news_about_harry(url)`, принимающую на вход адрес веб-страницы `url`, загружающую эту веб-страницу и проверяющую, встречается ли в ней слово `Harry` (с большой буквы). Функция должна возвращать `True`, если встречается, и `False` в противном случае. Также функция должна возвращать `False`, если страницу не удалось открыть (например, была получена ошибка *404 Not Found*.)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "06e99e37531223f4a5bec3177853393b", "grade": false, "grade_id": "pr_1", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "208bdfaa408997e34f1f223f654d9c4d", "grade": true, "grade_id": "pr_1_1", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=J._K._Rowling&oldid=694008857\")\n", "assert any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=Star_Wars&oldid=694701430\")\n", "assert not any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=Darth_Vader&oldid=694617684\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "b91325c0d076c557b501a08637b82386", "grade": true, "grade_id": "pr_1_2", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert not any_news_about_harry(\"http://math-info.hse.ru/there_is_no_Harry_here\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 2. (1 балл.)\n", "Написать функцию `get_strong(html)`, принимающую на вход html-страницу в виде длинной строки, записанной в переменную `html`, и возвращающую строчку, содержащуюся в первом теге `strong`.\n", "\n", "Примеры см. в тестах.\n", "\n", "**Подсказка.** Вы можете создать объект `BeautifulSoup`, передав ему строку с html в качестве параметра. Например:\n", "\n", "```python\n", "from bs4 import BeautifulSoup\n", "page = BeautifulSoup(\"

Hello

\", \"html.parser\")\n", "print(page.p)\n", "```" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "1f4333fd8a103a40ccd724d7e920196b", "grade": false, "grade_id": "pr_2", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "38ecff3e138a37d667633b3398b51448", "grade": true, "grade_id": "pr_2_2", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert get_strong(\"

Hello, World!\") == \"World\"\n", "html = \"\"\"\n", " \n", "

\n", " Hello,\n", " \n", " World\n", " \n", "

\n", " \n", "\"\"\"\n", "assert get_strong(html).strip() == \"World\"\n", "assert get_strong(\"

tag <strong> is used in HTML\\n to make letters stronger\") == \"stronger\"\n", "assert get_strong(\"One\\nTwo\") == \"One\\nTwo\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 3. (1 балл.)\n", "Для вставки картинок в HTML используется тег ``, содержащий параметр `src` — адрес файла с картинкой. Например, ``. Написать функцию `all_images_src(html)`, принимающую на вход длинную строчку с HTML-документом, а возвращающую список адресов всех картинок, встречающихся в этом документе (в том порядке, в котором они встречаются в документе)." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "148c01d925f6070802007d7eda423912", "grade": false, "grade_id": "pr_3", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "4a5f42498bed88531a56ed2725f35447", "grade": true, "grade_id": "pr_3_t", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert all_images_src('') == [\"https://upload.wikimedia.org/wikipedia/commons/b/bd/Struthio_camelus_portrait_Whipsnade_Zoo.jpg\"]\n", "assert all_images_src( ('\\n'\n", " '

Some text\\n'\n", " '\\n'\n", " '

') ) == [\"test.jpg\", \"well.png\"]\n", "assert all_images_src('

'\n", " '\"Just

\"\n", " ) == ['this is a test.jpg'] + ['img%04i.png' % i for i in range(1000)]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 4. (2 балла.)\n", "Написать функцию `get_all_headings(url)`, принимающую на вход адрес страницы в Википедии и возвращающую список, состоящий из названий разделов статьи (в порядке появления в статье). Если такой страницы не существует, функция должна вернуть список, состоящей из строки `\"Not found\"`." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "fd6e3f0870bd33b6b251c44398cd1d15", "grade": false, "grade_id": "pr_4", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "acceb082acb8aac95855c7e052b86f98", "grade": true, "grade_id": "pr_4_t", "locked": true, "points": 2, "solution": false } }, "outputs": [], "source": [ "from urllib.parse import urlencode\n", "entrypoint = \"https://ru.wikipedia.org/w/index.php?\"\n", "def mkurl(title, oldid):\n", " return entrypoint+urlencode(dict(title=title, oldid=oldid))\n", "assert get_all_headings(mkurl(\"Северовирджинская кампания\",75043192)) == ['Предыстория',\n", " 'Силы сторон',\n", " 'Сражения',\n", " 'Последствия',\n", " 'Примечания',\n", " 'Литература',\n", " 'Ссылки']\n", "\n", "assert get_all_headings(mkurl('User:Ilya_Voyager/sandbox/h2test',\"75055744\")) == ['Заголовок', 'Ещё один заголовок', 'Третий заголовок']\n", "assert get_all_headings(mkurl('User:Ilya_Voyager/This Page Will Never Exist', \"\")) == [\"Not found\"]\n", "del urlencode, mkurl" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 5. (4 балла)\n", "Написать функцию `city_site(name)`, принимающую на вход название города и возвращающую строку, содержащую адрес официального сайта этого города, согласно русской Википедии. Если такого города Википедия не знает, или если у города нет сайта, вернуть `None`.\n", "\n", "Предполагается, что вы будете решать эту задачу, обрабатывая HTML-код веб-страницы, а не исходный код статей, и не будете пользоваться сторонними библиотеками (кроме `urllib`, `requests`, `BeautifulSoup`).\n", "\n", "**Подсказка.** Как сформировать адрес страницы, зная название статьи, можно подсмотреть в тесте к задаче 4. Впрочем, можно передать адрес страницы напрямую в `requests.get`, см. [официальную документацию](http://docs.python-requests.org/en/latest/user/quickstart/#passing-parameters-in-urls)." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "5cf4041787597944249f522b76ca99ee", "grade": false, "grade_id": "pr_5", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "2d1d6fa36a253e07aa3560d767fb2f1d", "grade": true, "grade_id": "pr_5_1", "locked": true, "points": 4, "solution": false } }, "outputs": [], "source": [ "res = [('Абакан', 'http://абакан.рф/'), \n", " ('Анадырь', None), \n", " ('Киров (Кировская область)', 'http://www.mo-kirov.ru'), \n", " ('Южно-Сахалинск', 'http://yuzhno-sakh.ru/'), \n", " ('Усть-Каменоустюгск', None)]\n", "for city, site in res:\n", " assert city_site(city) == site" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.5.0" } }, "nbformat": 4, "nbformat_minor": 0 }