{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "692ae7bb-d079-4162-953e-0df83f19497d",
   "metadata": {},
   "source": [
    "# Download and process Tasmanian Post Office Directory PDFs\n",
    "\n",
    "PDFs of the Tasmanian Post Office Directory from 1890 to 1948 are [available from Libraries Tasmania](https://stors.tas.gov.au/ILS/SD_ILS-981598). This notebook downloads all 48 PDFs, then extracts images and text from the PDFs using PyMuPDF.\n",
    "\n",
    "Further processing:\n",
    "- I wasn't happy with the quality of the text extracted from the PDFs, so I decided to [re-OCR the images using Tesseract](tas-pod-ocr-with-tesseract.ipynb).\n",
    "- The images were [uploaded to Amazon s3](tas-pod-upload-images.ipynb) for delivery via IIIF.\n",
    "- Once the text and images were ready, I [loaded everything into an SQLite database](tas-pod-add-to-datasette.ipynb) for delivery via Datasette."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "503ec386-84d0-4b51-a55e-dc92d3767219",
   "metadata": {},
   "outputs": [],
   "source": [
    "import re\n",
    "from pathlib import Path\n",
    "\n",
    "import fitz\n",
    "import requests"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "id": "aead70a5-0174-467b-907c-7975b5d2a02f",
   "metadata": {},
   "outputs": [],
   "source": [
    "# The base url for downloads from Libraries Tas\n",
    "download_url = \"https://stors.tas.gov.au/download/\"\n",
    "\n",
    "# This HTML list of PDFs was just copied from the page source of the Libraries Tas viewer. It could of course be scraped automatically.\n",
    "pdf_list = \"\"\"\n",
    "<li pid=\"AUTAS001126438076P1896-97PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1896-97PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Tasmanian Post Office Directory 1896-97</span></a></li><li pid=\"AUTAS001126438076P1900PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1900PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1900</span></a></li><li pid=\"AUTAS001126438076P1890-91PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1890-91PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Tasmanian Post Office Directory 1890-91</span></a></li><li pid=\"AUTAS001126438076P1892-93PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1892-93PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Tasmanian Post Office Directory 1892-93</span></a></li><li pid=\"AUTAS001126438076P1894-95PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1894-95PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Tasmanian Post Office Directory 1894-95</span></a></li><li pid=\"AUTAS001126438076P1898PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1898PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1898</span></a></li><li pid=\"AUTAS001126438076P1906PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1906PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1906</span></a></li><li pid=\"AUTAS001126438076P1899PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1899PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1899</span></a></li><li pid=\"AUTAS001126438076P1907PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1907PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1907</span></a></li><li pid=\"AUTAS001126438076P1908PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1908PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1908</span></a></li><li pid=\"AUTAS001126438076P1901PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1901PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1901</span></a></li><li pid=\"AUTAS001126438076P1909PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1909PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1909</span></a></li><li pid=\"AUTAS001126438076P1902PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1902PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1902</span></a></li><li pid=\"AUTAS001126438076P1910PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1910PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1910</span></a></li><li pid=\"AUTAS001126438076P1903PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1903PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1903</span></a></li><li pid=\"AUTAS001126438076P1911PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1911PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1911</span></a></li><li pid=\"AUTAS001126438076P1904PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1904PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1904</span></a></li><li pid=\"AUTAS001126438076P1912PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1912PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1912</span></a></li><li pid=\"AUTAS001126438076P1905PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1905PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1905</span></a></li><li pid=\"AUTAS001126438076P1913PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1913PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1913</span></a></li><li pid=\"AUTAS001126438076P1914PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1914PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1914</span></a></li><li pid=\"AUTAS001126438076P1915PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1915PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1915</span></a></li><li pid=\"AUTAS001126438076P1916PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1916PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1916</span></a></li><li pid=\"AUTAS001126438076P1917PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1917PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1917</span></a></li><li pid=\"AUTAS001126438076P1918PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1918PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1918</span></a></li><li pid=\"AUTAS001126438076P1919PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1919PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1919</span></a></li><li pid=\"AUTAS001126438076_1920\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1920\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1920 </span></a></li><li pid=\"AUTAS001126438076P1921PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1921PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1921</span></a></li><li pid=\"AUTAS001126438076P1922PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1922PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1922</span></a></li><li pid=\"AUTAS001126438076P1923PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1923PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1923</span></a></li><li pid=\"AUTAS001126438076P1924PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1924PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1924</span></a></li><li pid=\"AUTAS001126438076P1925PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1925PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1925</span></a></li><li pid=\"AUTAS001126438076P1926PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1926PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1926</span></a></li><li pid=\"AUTAS001126438076P1927PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1927PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1927</span></a></li><li pid=\"AUTAS001126438076P1928PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1928PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1928</span></a></li><li pid=\"AUTAS001126438076P1929PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1929PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1929</span></a></li><li pid=\"AUTAS001126438076P1930PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1930PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1930</span></a></li><li pid=\"AUTAS001126438076P1931PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1931PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1931</span></a></li><li pid=\"AUTAS001126438076P1932PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1932PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1932</span></a></li><li pid=\"AUTAS001126438076_1933-34\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1933-34\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory 1933-34 </span></a></li><li pid=\"AUTAS001126438076P1935PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1935PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1935</span></a></li><li pid=\"AUTAS001126438076P1936PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1936PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1936</span></a></li><li pid=\"AUTAS001126438076P1937PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1937PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1937</span></a></li><li pid=\"AUTAS001126438076P1938PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1938PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1938</span></a></li><li pid=\"AUTAS001126438076P1939PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1939PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1939</span></a></li><li pid=\"AUTAS001126438076_1940-41\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1940-41\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory1940-41 </span></a></li><li pid=\"AUTAS001126438076_1941-42\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1941-42\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory1941-42 </span></a></li><li pid=\"AUTAS001126438076_1942-43\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1942-43\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1942-43</span></a></li><li pid=\"AUTAS001126438076_1943-44\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1943-44\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory1943-44 </span></a></li><li pid=\"AUTAS001126438076_1944-45\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1944-45\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory1944-45 </span></a></li><li pid=\"AUTAS001126438076_1945-46\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076_1945-46\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise\\'s Tasmanian Directory1945-46 </span></a></li><li pid=\"AUTAS001126438076P1945PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1945PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1945</span></a></li><li pid=\"AUTAS001126438076P1947PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1947PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1947</span></a></li><li pid=\"AUTAS001126438076P1948PDF\" parent=\"AUTAS001126438076\"><a href=\"/AUTAS001126438076P1948PDF\" target=\"imageFrame\"><span class=\"fiv-cla fiv-icon-pdf\"></span> <span class=\"label\">Wise's Tasmanian Directory 1948</span></a></li>\n",
    "\"\"\""
   ]
  },
  {
   "cell_type": "markdown",
   "id": "309b1abd-22ed-41c2-af90-69be2d5b7aaa",
   "metadata": {},
   "source": [
    "## Download all of the PDFs\n",
    "\n",
    "We'll extract all the volume identifiers from the HTML then download each PDF."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "57883c43-6193-49e5-acb6-89dc22d3abd2",
   "metadata": {
    "tags": [
     "nbval-skip"
    ]
   },
   "outputs": [],
   "source": [
    "# Download all the PDFs\n",
    "# Extract all the volume identifiers from the HTML fragment\n",
    "pids = re.findall(r\"href=\\\"/([A-Z0-9\\-]+)\\\"\", pdf_list)\n",
    "# Loop through the identifiers, downloading and saving each PDF\n",
    "for pid in pids:\n",
    "    print(pid)\n",
    "    response = requests.get(f\"{download_url}{pid}\")\n",
    "    Path(\"tasmania\", f\"{pid}.pdf\").write_bytes(response.content)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2a166fc9-cb45-4a41-981b-6377c02524ed",
   "metadata": {},
   "source": [
    "## Extract text and images from the PDFs\n",
    "\n",
    "We're using [PyMuPDF](https://pymupdf.readthedocs.io/en/latest/) to extract information from the PDFs. Once processed, we'll end up with a folder for each volume, within which are folders labelled 'text' and 'images' containing all the extracted text and images."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "7681d880-cb16-45a5-bd08-07f288ee9bac",
   "metadata": {
    "tags": [
     "nbval-skip"
    ]
   },
   "outputs": [],
   "source": [
    "# Loop through all the PDFs\n",
    "for pdf in Path(\"tasmania\").glob(\"*.pdf\"):\n",
    "    print(pdf.name)\n",
    "    pid = pdf.name.split(\".\")[0]\n",
    "    # Create directory for volume\n",
    "    data_dir = Path(\"tasmania\", pid)\n",
    "    data_dir.mkdir(exist_ok=True)\n",
    "    # Create directories for text and images\n",
    "    text_dir = Path(data_dir, \"text\")\n",
    "    image_dir = Path(data_dir, \"images\")\n",
    "    text_dir.mkdir(exist_ok=True)\n",
    "    image_dir.mkdir(exist_ok=True)\n",
    "    # Open the PDF with PyMuPDF\n",
    "    doc = fitz.open(pdf)\n",
    "    for i, page in enumerate(doc):\n",
    "        # Get images\n",
    "        for xref in page.get_images():\n",
    "            pix = fitz.Pixmap(doc, xref[0])\n",
    "            image_file = Path(image_dir, f\"{pid}-{i+1}.jpg\")\n",
    "            pix.save(image_file)\n",
    "        # Get text\n",
    "        text_path = Path(text_dir, f\"{pid}-{i+1}.txt\")\n",
    "        # The sort option tries to organise the text into a natural reading view.\n",
    "        # However, this doesn't always manage to identify column boundaries, so values from adjacent columns can be munged together.\n",
    "        text = page.get_text(sort=True)\n",
    "        Path(text_path).write_text(text)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "754150bc-fb02-4709-9b78-15318f51d1d4",
   "metadata": {},
   "source": [
    "----\n",
    "Created by [Tim Sherratt](https://timsherratt.org/) for the [GLAM Workbench](https://glam-workbench.net/) as part of the [Everyday Heritage](https://everydayheritage.au/) project."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3.9.9 64-bit",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.9"
  },
  "vscode": {
   "interpreter": {
    "hash": "e7370f93d1d0cde622a1f8e1c04877d8463912d04d973331ad4851f04de6915a"
   }
  },
  "widgets": {
   "application/vnd.jupyter.widget-state+json": {
    "state": {},
    "version_major": 2,
    "version_minor": 0
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}