{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Программирование на языке Python для сбора и анализа данных\n", "*Семинары ведут: Щуров И.В., Будылин Р.Я., НИУ ВШЭ*\n", "\n", "Данный notebook является набором задач по курсу \n", "«Программирование на языке Python для сбора и анализа данных» \n", "(НИУ ВШЭ, 2014-15). Распространяется по лицензии [CC BY-SA \n", "4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ru).\n", "На [странице курса](http://math-info.hse.ru/s15/m) находятся другие материалы." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Домашнее задание №8\n", "За разные задачи можно получить разное число баллов. Максимум за ДЗ можно набрать 6 баллов. Вы можете решить больше задач, чем требуется, чтобы набрать 6 баллов, чтобы подстраховаться.\n", "\n", "Для предварительной проверки задания нужно скачать данный `ipynb`-файл на свой компьютер, открыть его в IPython Notebook/Jupyter (подробнее о том, как это сделать, см. [здесь](http://math-info.hse.ru/2015-16/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B5_Python_%D0%B4%D0%BB%D1%8F_%D1%81%D0%B1%D0%BE%D1%80%D0%B0_%D0%B8_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85#.D0.9A.D0.B0.D0.BA_.D0.B8.D1.81.D0.BF.D0.BE.D0.BB.D1.8C.D0.B7.D0.BE.D0.B2.D0.B0.D1.82.D1.8C)) и вставить решение каждой задачи в ячейку для кода, следующую за его условием, запустить эту ячейку, а затем запустить следующую ячейку (в ней содержится тест). Если запуск ячейки с тестом не приводит к появлению ошибки (assertion), значит, всё в порядке, задача решена. Если приводит к появлению ошибки, значит, тест не пройден и нужно искать ошибку.\n", "\n", "Чтобы сдать ДЗ, его надо будет загрузить в [nbgr-x](http://python.math-hse.info) в виде `ipynb`-файла.\n", "\n", "### Библиотеки\n", "Во всех задачах можно использовать библиотеки `requests` и `BeautifulSoup` (`bs4`)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 1. (2 балла.)\n", "Написать функцию `any_news_about_harry(url)`, принимающую на вход адрес веб-страницы `url`, загружающую эту веб-страницу и проверяющую, встречается ли в ней слово `Harry` (с большой буквы). Функция должна возвращать `True`, если встречается, и `False` в противном случае. Также функция должна возвращать `False`, если страницу не удалось открыть (например, была получена ошибка *404 Not Found*.)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "06e99e37531223f4a5bec3177853393b", "grade": false, "grade_id": "pr_1", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "208bdfaa408997e34f1f223f654d9c4d", "grade": true, "grade_id": "pr_1_1", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=J._K._Rowling&oldid=694008857\")\n", "assert any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=Star_Wars&oldid=694701430\")\n", "assert not any_news_about_harry(\"https://en.wikipedia.org/w/index.php?title=Darth_Vader&oldid=694617684\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "b91325c0d076c557b501a08637b82386", "grade": true, "grade_id": "pr_1_2", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert not any_news_about_harry(\"http://math-info.hse.ru/there_is_no_Harry_here\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 2. (1 балл.)\n", "Написать функцию `get_strong(html)`, принимающую на вход html-страницу в виде длинной строки, записанной в переменную `html`, и возвращающую строчку, содержащуюся в первом теге `strong`.\n", "\n", "Примеры см. в тестах.\n", "\n", "**Подсказка.** Вы можете создать объект `BeautifulSoup`, передав ему строку с html в качестве параметра. Например:\n", "\n", "```python\n", "from bs4 import BeautifulSoup\n", "page = BeautifulSoup(\"
Hello
\", \"html.parser\")\n", "print(page.p)\n", "```" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "1f4333fd8a103a40ccd724d7e920196b", "grade": false, "grade_id": "pr_2", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "38ecff3e138a37d667633b3398b51448", "grade": true, "grade_id": "pr_2_2", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert get_strong(\"Hello, World!\") == \"World\"\n", "html = \"\"\"\n", "
\n", "\n", " Hello,\n", " \n", " World\n", " \n", "
\n", " \n", "\"\"\"\n", "assert get_strong(html).strip() == \"World\"\n", "assert get_strong(\"tag <strong> is used in HTML\\n to make letters stronger\") == \"stronger\"\n", "assert get_strong(\"
One\\nTwo\") == \"One\\nTwo\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Задача 3. (1 балл.)\n", "Для вставки картинок в HTML используется тег ``, содержащий параметр `src` — адрес файла с картинкой. Например, ``. Написать функцию `all_images_src(html)`, принимающую на вход длинную строчку с HTML-документом, а возвращающую список адресов всех картинок, встречающихся в этом документе (в том порядке, в котором они встречаются в документе)." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "deletable": false, "nbgrader": { "checksum": "148c01d925f6070802007d7eda423912", "grade": false, "grade_id": "pr_3", "locked": false, "solution": true } }, "outputs": [], "source": [ "# YOUR CODE HERE\n", "raise NotImplementedError()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "deletable": false, "nbgrader": { "checksum": "4a5f42498bed88531a56ed2725f35447", "grade": true, "grade_id": "pr_3_t", "locked": true, "points": 1, "solution": false } }, "outputs": [], "source": [ "assert all_images_src('') == [\"https://upload.wikimedia.org/wikipedia/commons/b/bd/Struthio_camelus_portrait_Whipsnade_Zoo.jpg\"]\n", "assert all_images_src( ('\\n'\n", " 'Some text\\n'\n", " '\\n'\n", " '
') ) == [\"test.jpg\", \"well.png\"]\n", "assert all_images_src(''\n",
" '' + \"\\n\"\n",
" .join(\"\" % i for i in range(1000)) + \n",
" \"