{ "cells": [ { "cell_type": "markdown", "id": "a235c0fa", "metadata": {}, "source": [ "# DNBLab Tutorial: Daten bereinigen und zusammenführen mittels OpenRefine" ] }, { "cell_type": "markdown", "id": "7efab486", "metadata": {}, "source": [ "## Part 1: Datenbezug mittels SRU-Schnittstelle" ] }, { "cell_type": "markdown", "id": "a835ec16", "metadata": {}, "source": [ "Als Datenbasis dienen die Metadaten des Digitalisierungsprojektes \"100 Bände Klassik\". Es enthält namhafte klassische Werke u.a. von Theodor Fontane, J.W. von Goethe und Rainer Maria Rilke und eignet sich daher besonders für einen ersten Einstieg in die Datenanreicherung, da die AutorInnen bereits umfassende Einträge in der GND haben. " ] }, { "cell_type": "markdown", "id": "7bd4b171", "metadata": {}, "source": [ "Die Daten werden mittels SRU-Schnittstelle bezogen und zur weiteren Verarbeitung in einer csv-Datei gespeichert. " ] }, { "cell_type": "markdown", "id": "c3c1bf1f", "metadata": {}, "source": [ "## Einrichten der Arbeitsumgebung" ] }, { "cell_type": "markdown", "id": "f3d66639", "metadata": {}, "source": [ "Um die Arbeitsumgebung für die folgenden Schritte passend einzurichten, sollten zunächst die benötigten Python-Bibliotheken importiert werden. Für Anfragen über die SRU-Schnittstelle wird `Requests` https://docs.python-requests.org/en/latest/ und zur Verarbeitung der XML-Daten `etree` https://docs.python.org/3/library/xml.etree.elementtree.html verwendet. Mit `Pandas` https://pandas.pydata.org/ können Elemente aus dem MARC21-Format ausgelesen werden." ] }, { "cell_type": "code", "execution_count": 25, "id": "17e5d771", "metadata": { "tags": [] }, "outputs": [], "source": [ "import requests\n", "from bs4 import BeautifulSoup \n", "import unicodedata\n", "from lxml import etree\n", "import pandas as pd\n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "markdown", "id": "681af64f", "metadata": {}, "source": [ "## SRU-Abfrage mit Ausgabe in MARC21-xml" ] }, { "cell_type": "markdown", "id": "780d8207", "metadata": {}, "source": [ "Die Funktion `dnb_sru` nimmt den Paramter \"query\" der SRU-Abfrage entgegen und liefert alle Ergebnisse als eine Liste von Records aus. Bei mehr als 100 Records werden weitere Datensätze mit \"&startRecord=101\" abgerufen (mögliche Werte 1 bis 99.000). Weitere Informationen und Funktionen der SRU- Schnittstelle werden unter https://www.dnb.de/sru beschrieben." ] }, { "cell_type": "code", "execution_count": 26, "id": "201fc688", "metadata": { "tags": [] }, "outputs": [], "source": [ "def dnb_sru(query):\n", " base_url = \"https://services.dnb.de/sru/dnb\"\n", " params = {\n", " 'recordSchema': 'MARC21-xml',\n", " 'operation': 'searchRetrieve',\n", " 'version': '1.1',\n", " 'maximumRecords': '100',\n", " 'query': query\n", " }\n", "\n", " r = requests.get(base_url, params=params)\n", " # Verwende den XML-Parser\n", " xml = BeautifulSoup(r.content, features=\"xml\")\n", " records = xml.find_all('record', {'type': 'Bibliographic'})\n", "\n", " if len(records) < 100:\n", " return records\n", " else:\n", " num_records_fetched = 100 # Anzahl der abgerufenen Datensätze\n", " start_record = 101 # Startindex für die nächste Abfrage\n", " while num_records_fetched == 100:\n", " params.update({'startRecord': start_record})\n", " r = requests.get(base_url, params=params)\n", " # Verwende den XML-Parser \n", " xml = BeautifulSoup(r.content, features=\"xml\")\n", " new_records = xml.find_all('record', {'type': 'Bibliographic'})\n", " records += new_records\n", " start_record += 100\n", " num_records_fetched = len(new_records)\n", "\n", " return records" ] }, { "cell_type": "markdown", "id": "47b0ba64", "metadata": {}, "source": [ "# Durchsuchen eines MARC-Feldes" ] }, { "cell_type": "markdown", "id": "008c6382", "metadata": {}, "source": [ "Die Funktion `parse_records` nimmt als Parameter jeweils ein Record entgegen und sucht über xpath die gewünschte Informationen heraus und liefert diese als Dictionary zurück. Die Schlüssel-Werte-Paare können beliebig angepasst und erweitert werden. \n", "\n", "Tipp: Schauen Sie sich gern unsere Feldübersicht für MARC21 an. \n", "https://www.dnb.de/SharedDocs/Downloads/DE/Professionell/Services/efa2023HandoutInhalteInMarc.pdf?__blob=publicationFile&v=2 " ] }, { "cell_type": "code", "execution_count": 27, "id": "e5a5d20a", "metadata": { "tags": [] }, "outputs": [], "source": [ "def parse_record(record):\n", " ns = {\"marc\": \"http://www.loc.gov/MARC21/slim\"}\n", " xml = etree.fromstring(unicodedata.normalize(\"NFC\", str(record)))\n", "\n", " def safe_xpath(xpath_expr):\n", " elements = xml.xpath(xpath_expr, namespaces=ns)\n", " return elements[0].text if elements else \"unknown\"\n", "\n", " # IDN\n", " idn = safe_xpath(\"marc:controlfield[@tag = '001']\")\n", "\n", " # Titel\n", " titel = safe_xpath(\"marc:datafield[@tag = '245']/marc:subfield[@code = 'a']\")\n", "\n", " # Erscheinungsjahr\n", " jahr = safe_xpath(\"marc:datafield[@tag = '264']/marc:subfield[@code = 'c']\")\n", "\n", " # Verfasserangabe\n", " verfasser = safe_xpath(\"marc:datafield[@tag = '100']/marc:subfield[@code = 'a']\")\n", "\n", " # GND-ID\n", " gnd_id = safe_xpath(\"marc:datafield[@tag = '100']/marc:subfield[@code = '0']\")\n", "\n", " # URN\n", " urn = safe_xpath(\"marc:datafield[@tag = '856']/marc:subfield[@code = 'u']\")\n", "\n", " # Verlag\n", " verlag = safe_xpath(\"marc:datafield[@tag = '264']/marc:subfield[@code = 'b']\")\n", "\n", " # Verlagsort\n", " verlagsort = safe_xpath(\"marc:datafield[@tag = '264']/marc:subfield[@code = 'a']\")\n", "\n", " meta_dict = {\n", " \"idn\": idn,\n", " \"titel\": titel,\n", " \"jahr\": jahr,\n", " \"verfasser\": verfasser,\n", " \"gnd_id\": gnd_id,\n", " \"urn\": urn,\n", " \"verlag\": verlag,\n", " \"verlagsort\": verlagsort\n", " }\n", "\n", " return meta_dict\n" ] }, { "cell_type": "markdown", "id": "a74578c3", "metadata": {}, "source": [ "Das Digitalisierungsprojekt \"100 Bände Klassik\" kann mt dem Projektcode \"d002\" als Datenset abgefragt und die Ergebnismenge ausgegeben werden." ] }, { "cell_type": "code", "execution_count": 28, "id": "5bcba3f8", "metadata": { "scrolled": false, "tags": [] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "108 Ergebnisse\n" ] } ], "source": [ "records = dnb_sru('cod=d002')\n", "print(len(records), 'Ergebnisse')" ] }, { "cell_type": "markdown", "id": "da801857", "metadata": {}, "source": [ "## CSV Download" ] }, { "cell_type": "markdown", "id": "ed6c3f37", "metadata": {}, "source": [ "Für die Datenbereinigung und Datenanreicherung wird die Arbeit im csv-Format empfohlen. Hierfür werden die Suchergebnisse im Folgenden in einem Dataframe (Tabelle) ausgegeben und anschließend für die weitere Bearbeitung heruntergeladen. " ] }, { "cell_type": "code", "execution_count": 29, "id": "684a40c6", "metadata": { "tags": [] }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idntiteljahrverfassergnd_idurnverlagverlagsort
01003104487Egmont[1946]Goethe, Johann Wolfgang ˜vonœ(DE-588)118540238https://nbn-resolving.org/urn:nbn:de:101:2-201...SchöninghPaderborn
1999490184˜Dasœ Amulett[1939]Meyer, Conrad Ferdinand(DE-588)118581775https://nbn-resolving.org/urn:nbn:de:101:2-201...Verl. Dt. VolksbücherWiesbaden
21000047377˜Derœ Struwwelpeter oder lustige Geschichten u...[1939]Hoffmann, Heinrich(DE-588)11855249Xhttps://nbn-resolving.org/urn:nbn:de:101:2-201...[Loewe][Stuttgart]
31000290328˜Derœ Zweikampf1939Kleist, Heinrich ˜vonœ(DE-588)118563076https://nbn-resolving.org/urn:nbn:de:101:2-201...KohlhammerStuttgart
499962461XHeidi1939Spyri, Johanna(DE-588)118616455https://nbn-resolving.org/urn:nbn:de:101:2-201...RascherZürich
...........................
1031000746348Leyer und Schwerdt1913Körner, Theodor(DE-588)118713507https://nbn-resolving.org/urn:nbn:de:101:2-201...Morawe & ScheffeltBerlin
104100003917XSchillers Wallenstein[1913]Schiller, Friedrich(DE-588)118607626https://nbn-resolving.org/urn:nbn:de:101:2-201...Dt. BibliothekBerlin
1051000062104Vor dem Sturm1913Fontane, Theodor(DE-588)118534262https://nbn-resolving.org/urn:nbn:de:101:2-201...CottaStuttgart
1061000775615˜Derœ Tod des Tizian[1912]Hofmannsthal, Hugo ˜vonœ(DE-588)118552759https://nbn-resolving.org/urn:nbn:de:101:2-201...Insel-Verl.Leipzig
1071000778517˜Dieœ drei gerechten Kammacher[1903]Keller, Gottfried(DE-588)11856109Xhttps://nbn-resolving.org/urn:nbn:de:101:2-201...CottaStuttgart
\n", "

108 rows × 8 columns

\n", "
" ], "text/plain": [ " idn titel jahr \\\n", "0 1003104487 Egmont [1946] \n", "1 999490184 ˜Dasœ Amulett [1939] \n", "2 1000047377 ˜Derœ Struwwelpeter oder lustige Geschichten u... [1939] \n", "3 1000290328 ˜Derœ Zweikampf 1939 \n", "4 99962461X Heidi 1939 \n", ".. ... ... ... \n", "103 1000746348 Leyer und Schwerdt 1913 \n", "104 100003917X Schillers Wallenstein [1913] \n", "105 1000062104 Vor dem Sturm 1913 \n", "106 1000775615 ˜Derœ Tod des Tizian [1912] \n", "107 1000778517 ˜Dieœ drei gerechten Kammacher [1903] \n", "\n", " verfasser gnd_id \\\n", "0 Goethe, Johann Wolfgang ˜vonœ (DE-588)118540238 \n", "1 Meyer, Conrad Ferdinand (DE-588)118581775 \n", "2 Hoffmann, Heinrich (DE-588)11855249X \n", "3 Kleist, Heinrich ˜vonœ (DE-588)118563076 \n", "4 Spyri, Johanna (DE-588)118616455 \n", ".. ... ... \n", "103 Körner, Theodor (DE-588)118713507 \n", "104 Schiller, Friedrich (DE-588)118607626 \n", "105 Fontane, Theodor (DE-588)118534262 \n", "106 Hofmannsthal, Hugo ˜vonœ (DE-588)118552759 \n", "107 Keller, Gottfried (DE-588)11856109X \n", "\n", " urn verlag \\\n", "0 https://nbn-resolving.org/urn:nbn:de:101:2-201... Schöningh \n", "1 https://nbn-resolving.org/urn:nbn:de:101:2-201... Verl. Dt. Volksbücher \n", "2 https://nbn-resolving.org/urn:nbn:de:101:2-201... [Loewe] \n", "3 https://nbn-resolving.org/urn:nbn:de:101:2-201... Kohlhammer \n", "4 https://nbn-resolving.org/urn:nbn:de:101:2-201... Rascher \n", ".. ... ... \n", "103 https://nbn-resolving.org/urn:nbn:de:101:2-201... Morawe & Scheffelt \n", "104 https://nbn-resolving.org/urn:nbn:de:101:2-201... Dt. Bibliothek \n", "105 https://nbn-resolving.org/urn:nbn:de:101:2-201... Cotta \n", "106 https://nbn-resolving.org/urn:nbn:de:101:2-201... Insel-Verl. \n", "107 https://nbn-resolving.org/urn:nbn:de:101:2-201... Cotta \n", "\n", " verlagsort \n", "0 Paderborn \n", "1 Wiesbaden \n", "2 [Stuttgart] \n", "3 Stuttgart \n", "4 Zürich \n", ".. ... \n", "103 Berlin \n", "104 Berlin \n", "105 Stuttgart \n", "106 Leipzig \n", "107 Stuttgart \n", "\n", "[108 rows x 8 columns]" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" } ], "source": [ "output = [parse_record(record) for record in records]\n", "df = pd.DataFrame(output)\n", "df" ] }, { "cell_type": "code", "execution_count": 30, "id": "acd0d64e", "metadata": { "tags": [] }, "outputs": [], "source": [ "# DataFrame als CSV speichern\n", "df.to_csv('Klassik.csv', index=False)" ] }, { "cell_type": "markdown", "id": "44b6dc4d", "metadata": {}, "source": [ "# Part 2: Datenbereinigung " ] }, { "cell_type": "markdown", "id": "b3e2a943-801d-4db9-9a03-de2f184ad55c", "metadata": {}, "source": [ "In unserer Ausgabe fällt auf, dass viele Titel mit eckigen Klammern ausgegeben werden oder zusätzliche Informationen enthalten, die nicht für die Analysen relevant sind. Grundlage für jede Datenanalyse sind normierte und bereinigte Ausgangsdaten. Diese können wir mittels OpenRefine bereinigen. OpenRefine ist ein Tool zur Datenbereinigung und Datenaufbereitung. Es kann mit sehr großen Datenmengen und mit diversen Formaten umgehen, zb.: .csv, .xml, .json etc. und eignet sich somit gut für die Analyse unserer Metadaten. " ] }, { "cell_type": "markdown", "id": "b7aea664-bc42-4891-829b-47bd1f746e28", "metadata": {}, "source": [ "Für die Datenbereinigung wird die Open-Source-Software OpenRefine eingesetzt. Eine lokale Installation (https://openrefine.org/download) wird empfohlen. Alternativ kann OpenRefine in der Webumgebung Binder gestartet werden: https://mybinder.org/v2/gh/innovationOUtside/nb_serverproxy_openrefine/main?urlpath=openrefine \n", "\n", "Bitte beachten Sie, dass die Ladezeiten der Online-Instanz stark variieren können." ] }, { "cell_type": "markdown", "id": "c9cea7dd", "metadata": {}, "source": [ "![Datenimport Bild](images/1_Datenimport.png)" ] }, { "cell_type": "markdown", "id": "3a872a45", "metadata": {}, "source": [ "Folgende Felder sollen für eine exemplarische Analyse bereinigt werden. Dafür nutzen wir GREL-Funktionen, um die Werte zu extrahieren. GREL-Funktionen arbeiten mit regulären Ausdrücken. Die genauen Bezeichnungen kann man im Handbuch von OpenRefine nachlesen. \"GREL\" steht für \"General Refine Expression Language\" und bezieht sich auf die Ausdruckssprache, die in OpenRefine verwendet wird. Siehe: https://openrefine.org/docs/manual/grelfunctions " ] }, { "cell_type": "markdown", "id": "4ac8e27a", "metadata": {}, "source": [ "**Erscheinungsjahr** \n", "- `value.find(/(\\b\\d{4}\\b)/)[0]`\n", "- Diese GREL-Funktion extrahiert das erste vierstellige Jahr, das in einer Zeichenkette gefunden wird. Dabei wird nach einer vierstelligen Zahl (z.B. \"2024\") gesucht und diese als Ergebnis zurückgegeben. \n", "- Hierfür wählen wir im Drop-Down Menü der Spalte den Befehl EDIT CELLS - Transform. Nun können wir unsere GREL-Expression eingeben. \n", "\n", "\n", "\n", "\n", "\n" ] }, { "cell_type": "markdown", "id": "4162e165", "metadata": {}, "source": [ "![Transform](images/2_Edit_Cells.JPG)" ] }, { "cell_type": "markdown", "id": "8a391731", "metadata": {}, "source": [ "![Year](images/3_Year.png)\n" ] }, { "cell_type": "markdown", "id": "d52c777d", "metadata": {}, "source": [ "**GND ID** \n", "- `value.replace(/\\(DE-588\\)/, \"\").trim()`\n", "- Diese GREL-Funktion entfernt den Text \"(DE-588)\" aus einer Zeichenkette und entfernt anschließend überflüssige Leerzeichen am Anfang oder Ende der Zeichenkette. Das Ergebnis ist die bereinigte GND-ID ohne den Präfix \"(DE-588)\"." ] }, { "cell_type": "markdown", "id": "c92b2909", "metadata": {}, "source": [ "![GND](images/4_GND.JPG)" ] }, { "cell_type": "markdown", "id": "c711dfef", "metadata": {}, "source": [ "![GND](images/5_GNDT.JPG)\n" ] }, { "cell_type": "markdown", "id": "73f285c4", "metadata": {}, "source": [ "**Verlagsort**\n", "\n", "- Um die Verlagsorte zu bereinigen, nutzen wir eine andere Möglichkeit der Bearbeitung von Open Refine. Zuerst werden wir die Verlagsorte vorselektieren. Dieser Weg eignet sich besonders bei kleinen Datenmengen. \n", "- Wir wählen im Drop-Down-Menü das Feld `Facetten - Custom Facet`" ] }, { "cell_type": "markdown", "id": "e2031344", "metadata": {}, "source": [ "![Verlag](images/6_Verlag.JPG)\n" ] }, { "cell_type": "markdown", "id": "0e809c21", "metadata": {}, "source": [ "- In einem Popup sehen wir nun eine Liste aller Verlagsorte. Diese bestätigen wir mit OK. " ] }, { "cell_type": "markdown", "id": "98798dff", "metadata": {}, "source": [ "![Facet](images/7_customfacet.JPG)\n" ] }, { "cell_type": "markdown", "id": "4897632a", "metadata": {}, "source": [ "- Daraufhin erscheint am linken Bildrand eine Liste. Wir suchen nun nach abweichenden Verlagsnamen und fügen sie mittels `include` zur Liste hinzu.\n" ] }, { "cell_type": "markdown", "id": "8d5d8f23", "metadata": {}, "source": [ "![Facet](images/8_Include.JPG)\n" ] }, { "cell_type": "markdown", "id": "9069daaa", "metadata": {}, "source": [ "- Die dadurch gebildete Facette sollte nun angezeigt werden.\n", "- Mittels Mouse-Over und `Edit` gelangen wir zu dem einzelnen Value. \n" ] }, { "cell_type": "markdown", "id": "8f1e483a", "metadata": {}, "source": [ "![Facet](images/9_edit.JPG)\n" ] }, { "cell_type": "markdown", "id": "704c7d29", "metadata": {}, "source": [ "- Dieser wird nun in den bereinigten Verlagsort, zb.: Berlin umbenannt und mittels `Apply to all identical cells` wird jeder gleichnamige Value dieser Orte zu Berlin normiert. Diese Variante eignet sich bei überschaubaren Datenmengen.\n", "- Zur Entfernung der Filter einfach `reset` in der rechten Spalte wählen " ] }, { "cell_type": "markdown", "id": "fc7c3a9f", "metadata": {}, "source": [ "![Facet](images/10_apply.JPG)\n" ] }, { "cell_type": "markdown", "id": "ecbb2f85", "metadata": {}, "source": [ "# Part 3: Datenanreicherung mittels Open Refine" ] }, { "cell_type": "markdown", "id": "7254a4e1", "metadata": {}, "source": [ "In der Gemeinsamen Normdatei (GND) finden wir viele Informationen zu Personen, Werken und Orten. Dort sind unter anderem Informationen zu Berufen, Beziehungen, Sterbe- und Geburtsdaten sowie Wirkungsdaten und Orte verzeichnet. Für unsere exemplarische Analyse reichern wir die Spalte `verfasser`mit Informationen aus der GND an. " ] }, { "cell_type": "markdown", "id": "0e611c44", "metadata": {}, "source": [ "Folgende Felder sollen angereichert werden: \n", "- Geburtsdatum\n", "- Geburtsort\n", "- Liste der Berufe der Person\n", "\n", "Weitere Felder. Informieren Sie sich dafür im GND Explorer und fügen Sie ein Feld Ihrer Wahl hinzu: https://explore.gnd.network/" ] }, { "cell_type": "markdown", "id": "322abb43", "metadata": {}, "source": [ "- Für die Datenanreicherung wählen wir die Spalte `gnd_id` \n", "- Unter dem Punkt `Reconcile` finden wir den Punkt `Start Reconciling`\n" ] }, { "cell_type": "markdown", "id": "9d238b42", "metadata": {}, "source": [ "![Reconcile](images/11_reconcile.JPG)" ] }, { "cell_type": "markdown", "id": "3f8cf978", "metadata": {}, "source": [ "- Anschließend den Punkt `Add Standard Service` wählen\n", "- Zum Abgleich nutzen wir `https://lobid.org/gnd/reconcile/`\n", "- Mit `Add Service` bestätigen\n", "- Fenster mit \"Cancel\" schließen" ] }, { "cell_type": "markdown", "id": "fca37783", "metadata": {}, "source": [ "![Reconcile](images/13_lobid.JPG)" ] }, { "cell_type": "markdown", "id": "14484132", "metadata": {}, "source": [ "- Nach dem Einrichten des Standard Service können wir nun über `Reconcile` `Use Values as Identifiers` die Verknüpfung mit der GND herstellen\n", "- Wir wählen unseren Service `GND reconcililation for OpenRefine`" ] }, { "cell_type": "markdown", "id": "a01be506", "metadata": {}, "source": [ "![Reconcile](images/14_values.JPG)" ] }, { "cell_type": "markdown", "id": "2f97fd2c", "metadata": {}, "source": [ "- Die Daten erscheinen nun als Links. Beim Mouse-Over werden Informationen über den Autor angezeigt.\n", "- Um zusätzliche Spalten zu erstellen, wählen wir nun unsere Spalte `gnd_id` `Edit column` `Add column from reconciled values...` und können anschließend unsere gewünschten Werte wählen\n" ] }, { "cell_type": "markdown", "id": "b91a6bfc", "metadata": {}, "source": [ "![Reconcile](images/15_revalues.JPG)" ] }, { "cell_type": "markdown", "id": "ca271e82", "metadata": {}, "source": [ "![Reconcile](images/16_new.JPG)" ] }, { "cell_type": "markdown", "id": "bd647574", "metadata": {}, "source": [ "- `OK` anwählen und einen Moment warten, während Open Refine die neuen Spalten erstellt.\n", "- Im Drop-Down Menü unter Exportieren kann die Datei als .csv Datei exportiert werden. " ] }, { "cell_type": "markdown", "id": "c39aba0d", "metadata": {}, "source": [ "## Part 4: Datenanalyse" ] }, { "cell_type": "markdown", "id": "11cc5bce-b222-40c3-82e7-b7b721aafdfa", "metadata": {}, "source": [ "## Daten einlesen" ] }, { "cell_type": "markdown", "id": "bea78a0e-1fc0-4d7e-8f1f-8b1124e0e59a", "metadata": {}, "source": [ "Nachdem die Daten bereinigt und mit Daten aus der GND angereichert wurden, führen wir eine exemplarische Analyse auf unseren angereicherten Daten durch. Zuerst wird die csv-Datei importiert und als Dataframe (Tabelle) ausgegeben. Der Dataframe bildet die Basis für die weiteren Bearbeitungen. \n", "\n", "Da die Zeilen in Open Refine untereinander angezeigt werden, findet sich bei leeren Werten die Bezeichnung \"NaN\"." ] }, { "cell_type": "code", "execution_count": 31, "id": "641be6c8", "metadata": { "tags": [] }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idntiteljahrverfassergnd_idGeburtsdatumGeburtsortBeruf oder BeschäftigungSterbeorturnverlagverlagsort
01003104487Egmont1946.0Goethe, Johann Wolfgang ˜vonœ1185402381749-08-28Frankfurt am MainSchriftstellerWeimarhttps://nbn-resolving.org/urn:nbn:de:101:2-201...SchöninghPaderborn
1NaNNaNNaNNaNNaNNaNNaNPublizistNaNNaNNaNNaN
2NaNNaNNaNNaNNaNNaNNaNPolitikerNaNNaNNaNNaN
3NaNNaNNaNNaNNaNNaNNaNJuristNaNNaNNaNNaN
4NaNNaNNaNNaNNaNNaNNaNNaturwissenschaftlerNaNNaNNaNNaN
.......................................
6181000778517˜Dieœ drei gerechten Kammacher1903.0Keller, Gottfried11856109X1819-07-19ZürichSchriftstellerZürichhttps://nbn-resolving.org/urn:nbn:de:101:2-201...CottaStuttgart
619NaNNaNNaNNaNNaNNaNNaNLibrettistNaNNaNNaNNaN
620NaNNaNNaNNaNNaNNaNNaNMalerNaNNaNNaNNaN
621NaNNaNNaNNaNNaNNaNNaNLyrikerNaNNaNNaNNaN
622NaNNaNNaNNaNNaNNaNNaNLyrikerNaNNaNNaNNaN
\n", "

623 rows × 12 columns

\n", "
" ], "text/plain": [ " idn titel jahr \\\n", "0 1003104487 Egmont 1946.0 \n", "1 NaN NaN NaN \n", "2 NaN NaN NaN \n", "3 NaN NaN NaN \n", "4 NaN NaN NaN \n", ".. ... ... ... \n", "618 1000778517 ˜Dieœ drei gerechten Kammacher 1903.0 \n", "619 NaN NaN NaN \n", "620 NaN NaN NaN \n", "621 NaN NaN NaN \n", "622 NaN NaN NaN \n", "\n", " verfasser gnd_id Geburtsdatum Geburtsort \\\n", "0 Goethe, Johann Wolfgang ˜vonœ 118540238 1749-08-28 Frankfurt am Main \n", "1 NaN NaN NaN NaN \n", "2 NaN NaN NaN NaN \n", "3 NaN NaN NaN NaN \n", "4 NaN NaN NaN NaN \n", ".. ... ... ... ... \n", "618 Keller, Gottfried 11856109X 1819-07-19 Zürich \n", "619 NaN NaN NaN NaN \n", "620 NaN NaN NaN NaN \n", "621 NaN NaN NaN NaN \n", "622 NaN NaN NaN NaN \n", "\n", " Beruf oder Beschäftigung Sterbeort \\\n", "0 Schriftsteller Weimar \n", "1 Publizist NaN \n", "2 Politiker NaN \n", "3 Jurist NaN \n", "4 Naturwissenschaftler NaN \n", ".. ... ... \n", "618 Schriftsteller Zürich \n", "619 Librettist NaN \n", "620 Maler NaN \n", "621 Lyriker NaN \n", "622 Lyriker NaN \n", "\n", " urn verlag verlagsort \n", "0 https://nbn-resolving.org/urn:nbn:de:101:2-201... Schöningh Paderborn \n", "1 NaN NaN NaN \n", "2 NaN NaN NaN \n", "3 NaN NaN NaN \n", "4 NaN NaN NaN \n", ".. ... ... ... \n", "618 https://nbn-resolving.org/urn:nbn:de:101:2-201... Cotta Stuttgart \n", "619 NaN NaN NaN \n", "620 NaN NaN NaN \n", "621 NaN NaN NaN \n", "622 NaN NaN NaN \n", "\n", "[623 rows x 12 columns]" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Passe den Dateinamen entsprechend an\n", "filename = 'Klassik_angereichert.csv'\n", "\n", "# Daten aus der CSV-Datei in DataFrame laden\n", "df = pd.read_csv(filename)\n", "\n", "df\n" ] }, { "cell_type": "markdown", "id": "a8c0e99e-65bd-46a0-b495-2828f3f55965", "metadata": { "tags": [] }, "source": [ "## Vertretene AutorInnen" ] }, { "cell_type": "markdown", "id": "70a32249-854b-4c66-a42a-7ba42783618a", "metadata": {}, "source": [ "Zuerst soll herausgefunden werden, welche AutorInnen mit wie vielen Werken in dem Datenset vorhanden sind. Dazu zählen wir die values in dem gegebenen Dataframe." ] }, { "cell_type": "code", "execution_count": 32, "id": "95841108", "metadata": { "tags": [] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Anzahl der Werke pro AutorIn:\n", " Anzahl der Werke\n", "verfasser \n", "Kleist, Heinrich ˜vonœ 7\n", "Goethe, Johann Wolfgang ˜vonœ 6\n", "Fontane, Theodor 6\n", "Meyer, Conrad Ferdinand 5\n", "Keller, Gottfried 5\n", "Eichendorff, Joseph ˜vonœ 4\n", "Schiller, Friedrich 4\n", "Hoffmann, E. T. A. 4\n", "Storm, Theodor 4\n", "Wassermann, Jakob 3\n", "Stifter, Adalbert 3\n", "Mörike, Eduard 3\n", "Gotthelf, Jeremias 3\n", "Tieck, Ludwig 2\n", "Anzengruber, Ludwig 2\n", "Schnitzler, Arthur 2\n", "Grabbe, Christian Dietrich 2\n", "Droste-Hülshoff, Annette ˜vonœ 2\n", "Hofmannsthal, Hugo ˜vonœ 2\n", "Ebner-Eschenbach, Marie ˜vonœ 2\n", "Lessing, Gotthold Ephraim 2\n", "Hebbel, Friedrich 2\n", "Raabe, Wilhelm 2\n", "Hauff, Wilhelm 1\n", "Meyrink, Gustav 1\n", "Wedekind, Frank 1\n", "Büchner, Georg 1\n", "Rilke, Rainer Maria 1\n", "Marlitt, E. 1\n", "Heyse, Paul 1\n", "Trakl, Georg 1\n", "Schlegel, Friedrich ˜vonœ 1\n", "Postl, Karl 1\n", "Grillparzer, Franz 1\n", "Heym, Georg 1\n", "Kafka, Franz 1\n", "Jean Paul 1\n", "Raimund, Ferdinand 1\n", "Bassewitz, Gerdt ˜vonœ 1\n", "Heine, Heinrich 1\n", "Chamisso, Adelbert ˜vonœ 1\n", "Horváth, Ödön ˜vonœ 1\n", "Grimmelshausen, Hans Jakob Christoffel ˜vonœ 1\n", "Uhland, Ludwig 1\n", "Reinheimer, Sophie 1\n", "Fouqué, Friedrich de La Motte- 1\n", "Spyri, Johanna 1\n", "May, Karl 1\n", "Hoffmann, Heinrich 1\n", "Wieland, Christoph Martin 1\n", "Ludwig, Otto 1\n", "Hölderlin, Friedrich 1\n", "Spee, Friedrich ˜vonœ 1\n", "Körner, Theodor 1\n" ] } ], "source": [ "# Anzahl der Werke pro AutorIn zählen und in ein DataFrame konvertieren\n", "anzahl_werke_pro_autor_df = pd.DataFrame(df['verfasser'].value_counts())\n", "\n", "# Umbenennen der Spalte in 'Anzahl der Werke'\n", "anzahl_werke_pro_autor_df.columns = ['Anzahl der Werke']\n", "\n", "# Anzeige des DataFrames\n", "print(\"Anzahl der Werke pro AutorIn:\")\n", "print(anzahl_werke_pro_autor_df)" ] }, { "cell_type": "markdown", "id": "d7d1077b-5da9-4689-a84b-ade1c6387951", "metadata": {}, "source": [ "## Erscheinungsjahre visualisieren " ] }, { "cell_type": "markdown", "id": "1b913b70-846d-4ef7-8d96-bfb88e6fd229", "metadata": {}, "source": [ "Die Erscheinungsjahre der Publikationen sollen grafisch dargestellt werden.\n", "Testen Sie, was passiert, wenn Sie die Werte unter plt.figure(figsize=(15, 8)) & plt.hist(years, bins=50, ändern. " ] }, { "cell_type": "code", "execution_count": 33, "id": "71513965", "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Erscheinungsjahre aus der Spalte 'jahr' im DataFrame df extrahieren\n", "years = df['jahr']\n", "\n", "# Histogramm erstellen\n", "plt.figure(figsize=(15, 8)) # definiert die Größe des Diagramms \n", "plt.hist(years, bins=50, color='skyblue', edgecolor='black') # Anzahl der Bins anpassen, um die gewünschte Granularität zu erreichen\n", "plt.title('Verteilung der Erscheinungsjahre')\n", "plt.xlabel('Erscheinungsjahr')\n", "plt.ylabel('Anzahl der Werke')\n", "plt.grid(True)\n", "plt.show()\n" ] }, { "cell_type": "markdown", "id": "17eb8800-34c3-4d5f-b875-810d77b56fe6", "metadata": {}, "source": [ "# Berufe visualisieren " ] }, { "cell_type": "markdown", "id": "6ad2f3c9-2679-4908-ba3b-db48e042521f", "metadata": {}, "source": [ "Was sind die 10 häufigsten Berufe, die unsere enthaltenen AutorInnen ausüben? Dazu können wir mit der matplotlib.pyplot ein Kreisdiagramm erstellen. Aufgrund der Diversität der Berufe wird der Datenbestand auf die Top-10-Berufe beschränkt. \n", "Im Codefeld beruf_beschaeftigung_counts = df['Beruf oder Beschäftigung'].value_counts().head(10) lässt sich der Wert 10 beliebig anpassen. Hier sollte man jedoch die Auswirkungen auf die Übersichtlichkeit beachten. " ] }, { "cell_type": "code", "execution_count": 34, "id": "61833127", "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Beruf oder Beschäftigung\n", "beruf_beschaeftigung_counts = df['Beruf oder Beschäftigung'].value_counts().head(10) # Nur die 10 häufigsten Werte\n", "\n", "# Kreisdiagramm erstellen\n", "plt.figure(figsize=(8, 8))\n", "plt.pie(beruf_beschaeftigung_counts, labels=beruf_beschaeftigung_counts.index, autopct='%1.1f%%', startangle=140)\n", "plt.title('Verteilung der 10 häufigsten Berufe oder Beschäftigungen')\n", "plt.axis('equal') \n", "plt.show()\n" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.5" } }, "nbformat": 4, "nbformat_minor": 5 }