# Lesson 7—Fetching data online

Version 1.0. Prepared by [Makzan](https://makzan.net). Updated at 2021 March.

In this series, we will use 3 lectures to learn fetching data online. This includes:

- Finding patterns in URL
- Open web URL
- Downloading files in Python
- Fetch data with API
- **Web scraping with Requests and BeautifulSoup**
- Web automation with Selenium
- Converting Wikipedia tabular data into CSV

In this lesson, we will learn to download web page and parse the HTML to extract the data we need. We will use `requests` and `BeautifulSoup`. `Requests` downloads the web page HTML file and `BeautifulSoup` parses the HTML into tree structure for us to access and extract data.

## Web Scraping

1. Querying web page
1. Parse the DOM tree
1. Get the data we want from the HTML code

In [1]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


廉政公署首支親子義工團接受培訓
2020年6月澳門國際性銀行業務統計
文化局對龍環葡韻進行外牆修繕工程　期間照常對外開放
2020年第2季私人建築及不動產交易統計
約12,000個社會房屋租戶將會減租
特區政府將於8月20日起實施社會房屋恆常性申請
第46屆世界技能大賽澳門區選拔賽現正接受報名
新經屋法明（18）日起生效
2020/2021學年“大專助學金計劃”的奬學金及特別助學金 即將截止申請
都更公司呼籲祐漢七樓群業主約洽重建
行政長官賀一誠在北京與國家發展和改革委員會主任何立峰會面
行政長官賀一誠在北京與國務院國有資產監督管理委員會黨委書記、主任郝鵬會面
社會文化司司長歐陽瑜代表行政長官出席澳門城市大學2019/2020學年高等學位頒授典禮
行政長官賀一誠在北京與國家稅務總局局長王軍會面
行政長官賀一誠在北京與海關總署署長倪岳峰會面
行政長官賀一誠在北京與公安部副部長兼出入境管理局局長許甘露會面
【澳門都市更新股份有限公司】「祐漢七棟樓群」入戶調查--問題天天都多，祐漢都更問清楚
【新聞局】行政長官賀一誠在北京與國家發展和改革委員會主任何立峰會面
【新聞局】行政長官賀一誠在北京與國務院國有資產監督管理委員會黨委書記、主任郝鵬會面
【新聞局】行政長官賀一誠與國家稅務總局局長王軍會面
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(14-08)
【新聞局】行政長官賀一誠與水利部部長鄂竟平會面
【新聞局】行政長官賀一誠：暫未打算開放外國人及非中國籍外僱入境
【新聞局】行政長官賀一誠在北京與商務部部長鍾山會見
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(12-08)
【財政局】財政局新推移動支付繳交定期稅




煙頭化作「百鳥歸巢」 水煙袋大碌竹分貧富
九澳七苦聖母小教堂
木造 古與今
碎木打造文創品 「廢柴」有幸慶新生
行政長官賀一誠率團往北京拜會部委
行政長官賀一誠：恢復內地旅客訪澳有助經濟復甦
【圖文包】8月12日零時起澳門進入內地人員不再實行集中隔離醫學觀察出入境安排
行政長官賀一誠與商務部部長鍾山會面
行政長官在北京拜訪中國人民銀行和國家外匯管理局
行政長官賀一誠：暫未打算開放外國人及非中國籍外僱入境
行政長官賀一誠拜訪公安部與出入境管理局
－記者會快訊（澳門市民進入中國內地各省市，可事先申請核酸檢測的紙本報告）－
行政長官賀一

## Extra: Fetching with try-except

In [36]:
from bs4 import BeautifulSoup
import requests

try:
    res = requests.get("https://news.gov.mo/home/zh-hant")
except requests.exceptions.ConnectionError:
    print("Error: Invalid URL or Connection Lost.")
    exit()

soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


社會工作局新任正副局長就職
－記者會快訊（過去兩天澳門居民入境珠海豁免隔離醫學觀察的網上申請系統運作良好）－
當事人需就沒有在訴訟程序中適時採取防禦手段承擔後果
新型冠狀病毒感染應變協調中心查詢熱線統計數字(6月22日 08:00至16:00)
－記者會快訊（北京疫情）－
－記者會快訊（出入境及市面情況）－
－記者會快訊（6月19-21日共新增354名入境人士須作醫學觀察）－
－記者會快訊（有867人在指定酒店作醫學觀察）－
托兒所友善措施首日運作暢順
－記者會快訊（本澳最新疫情）－
“消費補貼計劃”中期報告新聞發佈會
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日起發放
兩項防浸設備資助計劃月杪結束，呼籲商戶如有需要及早申請
【圖文包】常住珠海

In [2]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5")[:5]:
    print(h5.getText().strip())
    
    # Fetch the content
    href = h5.select_one("a")["href"]
    res = requests.get("https://news.gov.mo/" + href)
    soup2 = BeautifulSoup(res.text, "html.parser")
    content = soup2.select_one(".asideBody p:first-of-type")
    print(content.text)
    print("---")

print("Done.")

廉政公署首支親子義工團接受培訓


廉政公署組成首支“廉潔義工隊—親子義工團”，並完成首場培訓活動。廉署期望，新組成的親子義工團，進一步壯大廉潔義工隊，擴展深入社區的倡廉力量。
廉署親子義工團於上月展開招募，報名人數超出招募名額逾4倍。由於反應熱烈，廉署決定將原定40個親子組別增加至60個，並以抽籤方式確定入圍者。親子義工團組成後已於本月15日展開首場培訓活動，包括舉辦講座認識廉政公署職能和了解廉潔義工隊的工作等，親子成員並參觀及體驗了黑沙環社區辦事處的多媒體設施。有家長認為親子義工活動富有意義，將會身體力行，帶領小朋友為廉潔社會獻一分力，並期望孩子能在參與義工工作中培養正確價值觀。
廉署自2001年成立“廉潔義工隊＂以來，歷年成員超過600人。廉署稍後將為親子團成員繼續提供各種培訓，讓親子義工協助廉署推行各項倡廉活動，例如參與義務工作實踐、探訪社會服務機構及參與公益活動等。

---
2020年6月澳門國際性銀行業務統計


澳門金融管理局今天發佈的統計顯示，在2020年第二季，國際性業務佔澳門整體銀行業務的比重回落。至2020年6月底，國際資產佔銀行體系總資產的比重，從2020年3月底的85.9% 下跌至85.5%；而國際負債佔銀行體系總負債的比重，亦從2020年3月底的82.9% 下跌至82.6%。
外幣是澳門國際性銀行業務的主要交易單位。至2020年6月底，澳門元佔國際性銀行資產及負債的比重均為0.7%，而港元、美元、人民幣及其他外幣在國際資產中分別佔35.0%、47.5%、12.7% 及4.1%，其在國際負債中的比重則分別為40.0%、45.1%、10.9% 及3.3%。
澳門銀行的國際資產         
至2020年6月底，澳門銀行的國際資產總額按季上升3.1%，而按年亦增加12.7%，金額為18,759億澳門元（2,350億美元）；其中，對外資產按年上升11.9% 至14,045億澳門元，而本地外幣資產亦增長15.3%，金額為4,713億澳門元。作為國際資產主要組成部份的外地非銀行貸款增加16.7%，金額達6,666億澳門元。
澳門銀行的國際負債
澳門銀行的國際負債總額較三個月前上升3.2%，而按年亦增長13.8%，金額為18,112億澳門元（2,269億美元）；其中，對外負債及本地外幣負債分別按年上升18.5% 及9.0%，金額達9,614億及8

## Fetching Macao Daily news

In [3]:
from bs4 import BeautifulSoup
import requests
import datetime

today = datetime.date.today()
year = today.year
month = today.month
day = today.day

month = str(month).zfill(2)
day = str(day).zfill(2)    
res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")

res.encoding = "utf-8"

soup = BeautifulSoup(res.text, "html.parser") # Be aware that you may need a different parser if "lxml" not found.

links = soup.select("#all_article_list a")
for link in links[:40]:
    print(link.text) 


print("Finished.")


A01：澳聞
橫琴新口岸明開通
供澳鮮活空車入跨工區快捷
三巴士線經澳方口岸
港珠澳橋口岸貨運通關暢順

A02：澳聞
本報記者 澳大實習生 鄭詠心  報道
漁業復運當局多措防疫
漁會：漁民漁工具防疫意識
順風順水
居民幫襯街市“首撈”海鮮
粵港澳聯合執法助復工復產

A03：澳聞
賀：疫情凸顯行業單一弊端
賀一誠冀支持粵澳深度合作
鄭安庭促提前做好交通規劃
氹促會籲科學研判減交通困局
社諮委倡步行系統串連黑沙
城規師：十年變遷都更重查必要

A04：要聞
鍾：粵疫情不會大擴散
粵八招防秋冬疫情反彈
深採樣逾八萬份均陰性
我首個新冠疫苗專利獲批
疆新增四本土病例
穗停進口疫區冷凍肉水產

A05：要聞
特朗普被指操縱選舉
特朗普胞弟病逝
特：將考慮是否赦免斯諾登

A06：特刋
金沙物美嘉年華引十萬人次到場
王英偉：免費展銷平台助內銷經濟
心明治：珍惜參展機會
Finished.


## ✏️ Exercise time: Lab 3

1. Please try to execute the code to see the program result.
1. Please try to change the keyword inside the code to fetch different queries.
1. Please try to make the code more flexible by changing the date and query into input.
1. Please try to save the result into a text file.
1. Please try to change the code to allow multiple searches until user enters "q".

In [46]:
from bs4 import BeautifulSoup
import requests

# Task 1: Change year and month into input
year = "2020"
month = "06"

for i in range(1,32):
    day = str(i).zfill(2)    
    res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")

    res.encoding = "utf-8"

    soup = BeautifulSoup(res.text, "html.parser")

    links = soup.select("#all_article_list a")
    for link in links:
        news_title = link.getText()

        # Task 2: Change keyword into input
        if "大灣區" in news_title:
            # Task 3: Save the result in TXT intead of printing out.
            print(f"{year}-{month}-{day}: {news_title}")

print("Finished.")


2020-06-01: 穗力推大灣區軌道交通融合
2020-06-07: 穗市長：四領域推進大灣區建設
2020-06-09: 全國政協調研大灣區創新合作
2020-06-09: 大灣區葡語教育聯盟成立
2020-06-14: 粵發佈大灣區文遺遊徑
2020-06-14: 再現大灣區詩歌地圖
Finished.


Solution to Lab 3

https://makclass.com/vimeo_players/335074765

## When is the next holiday?

In [10]:
import datetime

url = f"https://www.gov.mo/zh-hant/public-holidays/year-{datetime.date.today().year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

print(soup.select("#public-holidays")[0].text.replace('\n',''))

 接下來的公眾假期星期四25六月端午節公眾假期


In [11]:
month = soup.select("#public-holidays .month")[0].text
day = soup.select("#public-holidays .day")[0].text
weekday = soup.select("#public-holidays .weekday")[0].text
description = soup.select("#next-holiday-description strong")[0].text

print(f"接下來的公眾假期：{description}, {month}{day}日{weekday}")

接下來的公眾假期：端午節, 六月25日星期四


## A list of holidays in Macao

In [4]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        date = row.select("td")[1].text
        name = row.select("td")[3].text
        print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
4月10日: 耶穌受難日
4月11日: 復活節前日
4月30日: 佛誕節
5月1日: 勞動節
6月25日: 端午節
10月1日: 中華人民共和國國慶日
10月2日: 中華人民共和國國慶日翌日
10月2日: 中秋節翌日
10月25日: 重陽節
11月2日: 追思節
12月8日: 聖母無原罪瞻禮
12月20日: 澳門特別行政區成立紀念日
12月21日: 冬至
12月24日: 聖誕節前日
12月25日: 聖誕節


Only listing obligatory holidays

In [13]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        is_obligatory = (row.select("td")[0].text == "*")
        if is_obligatory:
            date = row.select("td")[1].text
            name = row.select("td")[3].text
            print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
5月1日: 勞動節
10月1日: 中華人民共和國國慶日
10月2日: 中秋節翌日
10月25日: 重陽節
12月20日: 澳門特別行政區成立紀念日


## Is today government holiday?

In [14]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = name


# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    print(f"今天是公眾假期：{holiday}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


Our code is getting longer now. We can group the parts of the code that fetch gov.mo into a function. We name it `is_macao_holiday` and take a date parameter.

In [15]:
def is_macao_holiday(query_date):    
    # Fetch gov.mo
    url = f"https://www.gov.mo/zh-hant/public-holidays/year-{query_date.year}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    tables = soup.select(".table")

    holidays = {}

    for table in tables:
        for row in table.select("tr"):
            if len(row.select("td")) > 0:    
                date = row.select("td")[1].text
                weekday = row.select("td")[2].text
                name = row.select("td")[3].text
                holidays[date] = name


    # Query holidays
    date_key = f"{query_date.month}月{query_date.day}日"

    if date_key in holidays:        
        holiday = holidays[date_key]
        print(f"{date_key}是公眾假期：{holiday}")
    elif query_date.weekday() == 0:
        print(f"{date_key}是星期日，但不是公眾假期。")
    elif query_date.weekday() == 6:
        print(f"{date_key}是星期六，但不是公眾假期。")  
    else:
        print(f"{date_key}不是公眾假期。")

In [11]:
is_macao_holiday(datetime.date.today())

6月18日不是公眾假期。


### Picking a date other than today

We can use parser in `dateutil` to parse a given date in string format into date format.

In [12]:
import dateutil
date = dateutil.parser.parse("2020-01-01")
is_macao_holiday(date)

1月1日是公眾假期：元旦


In [13]:
import dateutil
date = dateutil.parser.parse("2020-10-26")
is_macao_holiday(date)

10月26日是公眾假期：重陽節的補假


Futhermore, we can store the result in dictionary for further querying.

In [16]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            is_obligatory = (row.select("td")[0].text == "*")
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = {
                'date': date,
                'weekday': weekday,
                'name': name,
                'is_obligatory': is_obligatory,
            }



The result is stored in dictionary `holidays`.

In [17]:
len(holidays)

28

In [18]:
holidays

{'1月1日': {'date': '1月1日',
  'weekday': '星期三',
  'name': '元旦',
  'is_obligatory': True},
 '1月25日': {'date': '1月25日',
  'weekday': '星期六',
  'name': '農曆正月初一',
  'is_obligatory': True},
 '1月26日': {'date': '1月26日',
  'weekday': '星期日',
  'name': '農曆正月初二',
  'is_obligatory': True},
 '1月27日': {'date': '1月27日',
  'weekday': '星期一',
  'name': '農曆正月初三',
  'is_obligatory': True},
 '4月4日': {'date': '4月4日',
  'weekday': '星期六',
  'name': '清明節',
  'is_obligatory': True},
 '4月10日': {'date': '4月10日',
  'weekday': '星期五',
  'name': '耶穌受難日',
  'is_obligatory': False},
 '4月11日': {'date': '4月11日',
  'weekday': '星期六',
  'name': '復活節前日',
  'is_obligatory': False},
 '4月30日': {'date': '4月30日',
  'weekday': '星期四',
  'name': '佛誕節',
  'is_obligatory': False},
 '5月1日': {'date': '5月1日',
  'weekday': '星期五',
  'name': '勞動節',
  'is_obligatory': True},
 '6月25日': {'date': '6月25日',
  'weekday': '星期四',
  'name': '端午節',
  'is_obligatory': False},
 '10月1日': {'date': '10月1日',
  'weekday': '星期四',
  'name': '中華人民共和國國慶日',
  'is_ob

In [19]:
# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    if holiday['is_obligatory']:
        print(f"今天是強制公眾假期：{holiday['name']}")
    else:
        print(f"今天是公眾假期：{holiday['name']}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


## Summary

In this lesson, we learned about using BeautifulSoup to extract data from the web.