# Основы программирования в Python

*Алла Тамбовцева, НИУ ВШЭ*

## Семинар 9

Импортируем библиотеку `requests`.

In [1]:
import requests

Сохраним ссылку на главную страницу сайта и загрузим ее.  

In [2]:
url = 'https://nplus1.ru/' # сохраняем
page = requests.get(url) # загружаем страницу по ссылке

Импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберем со страницы `page` код html в виде текста. 

In [3]:
from bs4 import BeautifulSoup

In [4]:
soup = BeautifulSoup(page.text, 'lxml')

Чтобы сгрузить все новости с главной страницы сайта, нужно собрать все ссылки на страницы с этими новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`. Посмотрим на кусочки кода, соответствующие всем ссылкам на главной странице сайта:

In [None]:
for link in soup.find_all('a'):
    print(link.get('href'))

Ссылок много. Но нам нужны только новости ‒ ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Создадим пустой список `urls` и будем добавлять в него только ссылки, которые удовлетворяют этому условию.

In [5]:
urls = []

for link in soup.find_all('a'):
    if '/news' in link.get('href'):
        urls.append(link.get('href'))
urls

['/news/2018/06/04/wwdc',
 '/news/2018/06/04/proterozoic-milanlovitch-cycles',
 '/news/2018/06/04/sleeping-toddler',
 '/news/2018/06/04/lhc',
 '/news/2018/06/04/hayabusa-2-complete-ion-cruise',
 '/news/2018/06/04/eclipsing-quadriple',
 '/news/2018/06/04/asus-rog',
 '/news/2018/06/04/small-asteroid-impact',
 '/news/2018/06/04/scaffolds',
 '/news/2018/06/04/ms-github',
 '/news/2018/06/04/spiritual-experince-mri',
 '/news/2018/06/04/voxel-printing',
 '/news/2018/06/04/Space-Acinetobacter',
 '/news/2018/06/04/stem-cells-therapy',
 '/news/2018/06/04/artificial-iris',
 '/news/2018/06/04/reusable-angara',
 '/news/2018/06/04/spacex-delay',
 '/news/2018/06/04/lipolysis-weight-gain',
 '/news/2018/06/04/triclosan',
 '/news/2018/05/29/bloch-oscillations',
 '/news/2018/05/28/anti-cytokine-release-syndrome',
 '/news/2018/05/29/smart-density',
 '/news/2018/05/28/flying-doughnat',
 '/news/2018/05/28/rods-gas',
 '/news/2018/06/04/lhc',
 '/news/2018/05/30/chem',
 '/news/2018/06/04/lipolysis-weight-gain'

Ссылки, которые у нас есть в списке `urls`, относительные: они неполные, начало ссылки (название сайта) отсутствует. Давайте превратим их в абсолютные ‒ склеим с ссылкой https://nplus1.ru.

In [6]:
full_urls = []

for u in urls:
    res = 'https://nplus1.ru' + u # если вылезет лишний слэш перед news - уберем его - u[1:] вместо u
    full_urls.append(res) 

full_urls

['https://nplus1.ru/news/2018/06/04/wwdc',
 'https://nplus1.ru/news/2018/06/04/proterozoic-milanlovitch-cycles',
 'https://nplus1.ru/news/2018/06/04/sleeping-toddler',
 'https://nplus1.ru/news/2018/06/04/lhc',
 'https://nplus1.ru/news/2018/06/04/hayabusa-2-complete-ion-cruise',
 'https://nplus1.ru/news/2018/06/04/eclipsing-quadriple',
 'https://nplus1.ru/news/2018/06/04/asus-rog',
 'https://nplus1.ru/news/2018/06/04/small-asteroid-impact',
 'https://nplus1.ru/news/2018/06/04/scaffolds',
 'https://nplus1.ru/news/2018/06/04/ms-github',
 'https://nplus1.ru/news/2018/06/04/spiritual-experince-mri',
 'https://nplus1.ru/news/2018/06/04/voxel-printing',
 'https://nplus1.ru/news/2018/06/04/Space-Acinetobacter',
 'https://nplus1.ru/news/2018/06/04/stem-cells-therapy',
 'https://nplus1.ru/news/2018/06/04/artificial-iris',
 'https://nplus1.ru/news/2018/06/04/reusable-angara',
 'https://nplus1.ru/news/2018/06/04/spacex-delay',
 'https://nplus1.ru/news/2018/06/04/lipolysis-weight-gain',
 'https://n

Теперь наша задача сводится к следующему: изучить одну страницу с новостью, научиться из нее вытаскивать текст и всю необходимую информацию, а потом применить весь набор действий к каждой ссылке из `full_urls` в цикле. Посмотрим на новость про бактерии (Space-Acinetobacter), у меня она здесь десятая, с индексом 9, у вас может быть другая, новости обновляются.

In [7]:
url0 = full_urls[9]

page0 = requests.get(url0)
soup0 = BeautifulSoup(page0.text, 'lxml')

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и проч. Такая информация окружена тэгом `<meta></meta>`. Посмотрим:

In [8]:
soup0.find_all('meta')

[<meta charset="utf-8"/>,
 <meta content="ie=edge" http-equiv="x-ua-compatible"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="yes" name="apple-mobile-web-app-capable"/>,
 <meta content="black" name="apple-mobile-web-app-status-bar-style"/>,
 <meta content="5cb1f59ae9eddd88" name="yandex-verification"/>,
 <meta content="2018-06-04" itemprop="datePublished"/>,
 <meta content="Елизавета Ивтушок" name="mediator_author"/>,
 <meta content="Microsoft купила GitHub за 7,5 миллиарда долларов" name="description"/>,
 <meta content="Елизавета Ивтушок" name="author"/>,
 <meta content="" name="copyright"/>,
 <meta content="Microsoft купила GitHub за 7,5 миллиарда долларов" property="og:title"/>,
 <meta content="https://nplus1.ru/images/2018/06/04/c12bb44e4be67a94b446fce6410588ba.jpg" property="og:image"/>,
 <meta content="http://nplus1.ru/news/2018/06/04/ms-github" property="og:url"/>,
 <meta content="Microsoft купила GitHub за 7,5 миллиарда долларов" pro

Из этого списка нам нужны части с именем автора, датой, заголовком и кратким описанием. Воспользуемся поиском по атрибуту `name`. Вспомним прошлую лекцию и передадим функции `find_all()` в качестве аргумента словарь с названием и значением атрибута: 

In [9]:
soup0.find_all('meta', {'name' : 'author'}) # например, автор

[<meta content="Елизавета Ивтушок" name="author"/>]

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [10]:
soup0.find_all('meta', {'name' : 'author'})[0]

<meta content="Елизавета Ивтушок" name="author"/>

Нам нужно вытащить из этого объекта `content` ‒ имя автора. Посмотрим на атрибуты:

In [11]:
soup0.find_all('meta', {'name' : 'author'})[0].attrs

{'content': 'Елизавета Ивтушок', 'name': 'author'}

Как получить отсюда `content`? Очень просто, ведь это словарь! А доставать из словаря значение по ключу мы умеем.

In [12]:
author = soup0.find_all('meta', {'name' : 'author'})[0].attrs['content']
author

'Елизавета Ивтушок'

Аналогичным образом извлечем дату, заголовок и описание.

In [13]:
date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].attrs['content']
title = soup0.find_all('meta', {'property' : 'og:title'})[0].attrs['content']
description = soup0.find_all('meta', {'name' : 'description'})[0].attrs['content']

Осталось вытащить рубрики и сложность текста. Если мы посмотрим на [исходный код страницы](view-source:https://nplus1.ru/news/2018/06/04/Space-Acinetobacter), мы увидим, что нужная нам информация находится в тэгах `<p></p>`:

In [14]:
soup0.find_all('p')

[<p class="table">
 <a data-rubric="it" href="/rubric/it">IT</a>
 </p>, <p class="table">
 <a href="/news/2018/06/04">
 <time content="2018-06-04" itemprop="datePublished">
 <span>16:18</span>
 <span>04 Июнь 2018</span>
 </time>
 </a>
 </p>, <p class="table">
 <a href="/difficult/1.6">
 <span>Сложность</span>
 <span class="difficult-value">1.6</span>
 </a>
 </p>, <p>Компания Microsoft купила веб-сервис для разработчиков GitHub. Сумма сделки составила 7,5 миллиарда долларов США. Об этом сообщается в <a href="https://blogs.microsoft.com/blog/2018/06/04/microsoft-github-empowering-developers/" rel="nofollow" target="_blank">пресс-релизе</a> Microsoft.</p>, <p>GitHub — открытый веб-сервис для хостинга и совместной разработки IT-проектов, которым пользуется примерно 27 миллионов разработчиков по всему миру, в том числе и крупные компании. Часть репозиториев Google, например, <a href="https://github.com/google" rel="nofollow" target="_blank">находится</a> в открытом доступе: компания часто в

Выберем из полученного списка первый элемент и найдем в нем все тэги `<a>`:

In [15]:
soup0.find_all('p')[0].find_all('a')

[<a data-rubric="it" href="/rubric/it">IT</a>]

Получился список из двух элементов. Применим списковые включения ‒ вытащим из каждого элемента текст и поместим его в новый список `rubrics`.

In [16]:
rubrics = [r.text for r in soup0.find_all('p')[0].find_all('a')]
rubrics

['IT']

Осталась только сложность. Возьмем соответствующий кусок кода:

In [17]:
soup0.find_all('span', {'class' : 'difficult-value'})

[<span class="difficult-value">1.6</span>]

И выберем оттуда текст.

In [18]:
diff = soup0.find_all('span', {'class' : 'difficult-value'})[0].text
diff

'1.6'

Теперь перейдем к тексту самой новости. Как можно заметить, текст сохранен в абзацах `<p></p>`, причем безо всяких атрибутов. Сообщим Python, что нас интересуют куски с пустым атрибутом `class`:

In [19]:
text_list = soup0.find_all('p', {'class' : None})

"Выцепим" все тексты (без тэгов) из полученного списка:

In [20]:
text = [t.text for t in text_list]

Склеим все элементы списка `text` через пробел:

In [21]:
final_text = ' '.join(text)
final_text

'Компания Microsoft купила веб-сервис для разработчиков GitHub. Сумма сделки составила 7,5 миллиарда долларов США. Об этом сообщается в пресс-релизе Microsoft. GitHub — открытый веб-сервис для хостинга и совместной разработки IT-проектов, которым пользуется примерно 27 миллионов разработчиков по всему миру, в том числе и крупные компании. Часть репозиториев Google, например,\xa0находится в открытом доступе: компания часто выкладывает в открытый доступ свои новые проекты. Впервые о начале переговоров о покупке со ссылкой на собственные источники в пятницу сообщило агенство Business Insider; подробности, также со ссылкой на собственные источники, далее представили в Bloomberg: в частности, издание сообщило о том, что Microsoft ведет переговоры о покупке компании уже несколько лет, а одной из причин успешной сделки стал генеральный директор Microsoft Сатья Наделла (Satya Nadella): совет директоров GitHub впечатлен его решениями в области стратегического развития компании. В 2015 году стои

Все здорово, только мешают отступы-переходы на новую строку `\n`. Заменим их на пробелы с помощью метода `.replace`:

In [22]:
final_text = final_text.replace('\n', ' ')

Не прошло и двух пар, как мы разобрались со всем :) Теперь осталось совсем чуть-чуть. Написать готовую функцию для всех проделанных нами действий и применить ее в цикле для всех ссылок в списке `full_urls`. Напишем! Аргументом функции будет ссылка на новость, а возвращать она будет текст новости и всю необходимую информацию (дата, автор, сложность и проч.). Скопируем все строки кода выше.

In [23]:
def GetNews(url0):
    """
    Returns a tuple with url0, date, author, description, title, final_text, rubrics, diff.
    Parameters:
    
    url0 is a link to the news (string)
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'lxml')
    author = soup0.find_all('meta', {'name' : 'author'})[0].attrs['content']
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].attrs['content']
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].attrs['content']
    description = soup0.find_all('meta', {'name' : 'description'})[0].attrs['content']
    rubrics = [r.text for r in soup0.find_all('p')[0].find_all('a')]
    diff = soup0.find_all('span', {'class' : 'difficult-value'})[0].text
    text_list = soup0.find_all('p', {'class' : None})
    text = [t.text for t in text_list]
    final_text = ' '.join(text)
    final_text = final_text.replace('\n', ' ')
    
    return url0, date, author, description, title, final_text, rubrics, diff

Уфф. Осталось применить ее в цикле. Но давайте не будем спешить: импортируем функцию `sleep` для задержки, чтобы на каждой итерации цикла, прежде чем перейти к следующей новости, Python ждал несколько секунд. Во-первых, это нужно, чтобы сайт "не понял", чтобы мы его грабим, да еще автоматически. Во-вторых, с небольшой задержкой всегда есть гарантия, что страница прогрузится (сейчас это пока не очень важно, но особенно актуально будет, когда будем обсуждать встраивание в браузер с Selenium). Приступим.

In [24]:
from time import sleep

In [25]:
news = [] # это будет список из кортежей, в которых будут храниться данные по каждой новости

for link in full_urls:
    res = GetNews(link)
    news.append(res)
    sleep(3) # задержка в 3 секунды

Так теперь выглядит первый элемент списка:

In [26]:
news[0]

('https://nplus1.ru/news/2018/06/04/wwdc',
 '2018-06-04',
 'Григорий Копиев',
 'Apple представила новые версии iOS и macOS',
 'Apple представила новые версии iOS и macOS',
 'Компания Apple представила на\xa0конференции WWDC 2018 новые версии операционных систем своих устройств\xa0— iOS, macOS, watchOS и\xa0tvOS. Трансляция первого дня конференции велась на\xa0сайте компании. Компания представила операционную систему iOS 12. В\xa0ней разработчики значительно улучшили быстродействие\xa0— по\xa0их\xa0заявлениям, на\xa0запуск приложений будет уходить до\xa040\xa0процентов меньше времени. Голосовой помощник Siri получил поддержку действий из\xa0приложений, причем он\xa0сможет отслеживать популярные действия в\xa0приложениях и\xa0предлагать их\xa0пользователю в\xa0нужный момент. Кроме того, пользователи смогут самостоятельно создавать наборы действий. К\xa0примеру, после рабочего дня человек может сказать Siri, что он\xa0направляется домой, а\xa0ассистент самостоятельно включит музыку для до

Импортируем `pandas` и создадим датафрейм из списка кортежей: 

In [27]:
import pandas as pd

In [28]:
df = pd.DataFrame(news)

In [29]:
df.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7
0,https://nplus1.ru/news/2018/06/04/wwdc,2018-06-04,Григорий Копиев,Apple представила новые версии iOS и macOS,Apple представила новые версии iOS и macOS,Компания Apple представила на конференции WWDC...,"[IT, Гаджеты]",3.2
1,https://nplus1.ru/news/2018/06/04/proterozoic-...,2018-06-04,Александр Дубов,Геологи уточнили длительность суток полтора ми...,Геологи уточнили длительность суток полтора ми...,"Американские геологи обнаружили, что что в про...","[Геология, Астрономия]",3.6


Переименуем столбцы в базе.

In [30]:
df.columns = ['link', 'date', 'author', 'desc', 'title', 'text', 'rubric', 'diffc']

In [31]:
df.head(2)

Unnamed: 0,link,date,author,desc,title,text,rubric,diffc
0,https://nplus1.ru/news/2018/06/04/wwdc,2018-06-04,Григорий Копиев,Apple представила новые версии iOS и macOS,Apple представила новые версии iOS и macOS,Компания Apple представила на конференции WWDC...,"[IT, Гаджеты]",3.2
1,https://nplus1.ru/news/2018/06/04/proterozoic-...,2018-06-04,Александр Дубов,Геологи уточнили длительность суток полтора ми...,Геологи уточнили длительность суток полтора ми...,"Американские геологи обнаружили, что что в про...","[Геология, Астрономия]",3.6


Теперь внесем изменения: сделаем столбец `diffc` числовым ‒ типа *float*.

In [32]:
df['diffc'] = [float(i) for i in df.diffc]

Теперь сложность представлена в базе как количественный показатель, и описывать ее можно соответствующим образом:

In [33]:
df.diffc.describe()

count    29.000000
mean      4.293103
std       1.688391
min       1.100000
25%       3.300000
50%       4.200000
75%       5.700000
max       7.200000
Name: diffc, dtype: float64

Объединим рубрики в *text* в одну строку через запятую:

In [34]:
df['rubric'] = [','.join(r) for r in df.rubric]

Давайте почистим текст новостей ‒ уберем оттуда текст, не относящийся к новостям. Найдем лишнее:

In [35]:
df.text[0]

'Компания Apple представила на\xa0конференции WWDC 2018 новые версии операционных систем своих устройств\xa0— iOS, macOS, watchOS и\xa0tvOS. Трансляция первого дня конференции велась на\xa0сайте компании. Компания представила операционную систему iOS 12. В\xa0ней разработчики значительно улучшили быстродействие\xa0— по\xa0их\xa0заявлениям, на\xa0запуск приложений будет уходить до\xa040\xa0процентов меньше времени. Голосовой помощник Siri получил поддержку действий из\xa0приложений, причем он\xa0сможет отслеживать популярные действия в\xa0приложениях и\xa0предлагать их\xa0пользователю в\xa0нужный момент. Кроме того, пользователи смогут самостоятельно создавать наборы действий. К\xa0примеру, после рабочего дня человек может сказать Siri, что он\xa0направляется домой, а\xa0ассистент самостоятельно включит музыку для дороги, повысит температуру термостата в\xa0доме и\xa0отправит сообщение супругу. Компания создала отдельное приложение, в\xa0котором пользователи смогут собирать простые набо

Лишний текст находится после фразы 'Нашли опечатку?'. Так давайте будем разбивать строки по этой фразе с помощью метода `.split()` и брать все, что до нее (элемент с индексом 0).

In [36]:
df['clean_text'] = [t.split('Нашли опечатку?')[0] for t in df.text]

Всё! Сохраняем датафрейм в файл.

In [37]:
df.to_csv('nplus-news.csv')