{
"cells": [
{
"attachments": {},
"cell_type": "markdown",
"metadata": {},
"source": [
"![resources/images/dhlab-logo-nb.png](../resources/images/dhlab-logo-nb.png)"
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {},
"source": [
"# Korpus"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"I `dhlab` brukes Python-klassen `Corpus` for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig. \n",
"\n",
"Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.\n"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {
"tags": []
},
"outputs": [],
"source": [
"# Importer bibliotekene\n",
"import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner\n",
"import dhlab.nbtext as nb # Tekstverktøy"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.\n",
"\n",
"Den lettetste måten å definere et korpus er å bruke søk i metadata. `Corpus` har flere parametre som kan brukes til å avgrense korpuset.\n",
"\n",
"### `Corpus`-klassens parametre:\n",
"\n",
"- **doctype**: \n",
" - Type objekt man vil søke i. Har man velge mellom `\"digibok\"`(bøker), `\"digavis\"`(aviser), `\"digitidsskrift\"`(tidsskrift), `\"digistorting\"`(stortingsdokumenter), `\"digimanus\"`(brev og manuskripter) eller `\"kudos\"`(kunnskapsdokumenter fra offentlig sektor). Standardverdien er `\"digibok\"`.\n",
" \n",
"- **author**: \n",
" - Navnet på en forfatter.\n",
" \n",
"- **freetext**: \n",
" - Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene `\"AND\"`, `\"OR\"` og `\"NOT\"`. For eksempel: `\"digibok AND Ibsen\"`.\n",
" \n",
"- **fulltext**: \n",
" - Ord innenfor publikasjonen. Bruk nøkkelordene `\"AND\"`, `\"OR\"` og `\"NOT\"` for å kombinere ord. For eksempel: `\"Ibsen AND teater\"`.\n",
" \n",
"- **from_year**: \n",
" - Startår for ønsket tidsperiode.\n",
" \n",
"- **to_year**: \n",
" - Sluttår for ønsket tidsperiode.\n",
" \n",
"- **from_timestamp**: \n",
" - Startdato for ønsket tidsperiode. Formatet er `YYYYMMDD`, mens bøker har `YYYY0101` som format.\n",
" \n",
"- **to_timestamp**: \n",
" - Sluttdato for ønsket tidsperiode. Formatet er som for `from_timestamp`.\n",
" \n",
"- **title**: \n",
" - Tittelen på dokumentet eller publikasjonen.\n",
" \n",
"- **ddk**: \n",
" - Deweys desimalklassifikasjon.\n",
" \n",
"- **subject**: \n",
" - Emnet eller temaet for dokumentet.\n",
" \n",
"- **lang**: \n",
" - Språket dokumentet er skrevet på. 3 bokstav ISO-kode.\n",
" \n",
"- **limit**: \n",
" - Grense for antall resultater som returneres. Standardverdien er 10.\n",
" \n",
"- **order_by**: \n",
" - Hvordan resultatene skal sorteres. For eksempel kan det være \"random\" for tilfeldig sortering.\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Eksempler"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Bygg et korpus der forfatteren er Vigdis Hjorth"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 100093627 | \n",
" URN:NBN:no-nb_digibok_2012062806027 | \n",
" Drama med Hilde | \n",
" Hjorth , Vigdis | \n",
" oai:nb.bibsys.no:998721014364702202 | \n",
" aaf187b65b89076390806e9af57e2085 | \n",
" 8257405663 / 8202111013 | \n",
" [Oslo] | \n",
" 19870101 | \n",
" 1987 | \n",
" Cappelen | \n",
" nob | \n",
" skjønnlitteratur/voksen / romaner | \n",
" 839.82 / 839.823 | \n",
" fiction | \n",
" Skjønnlitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 1 | \n",
" 100598358 | \n",
" URN:NBN:no-nb_digibok_2021110548154 | \n",
" Noveller i utvalg | \n",
" Ditlevsen , Tove / Hjorth , Vigdis / Hjorth , ... | \n",
" oai:nb.bibsys.no:999919973296202202 | \n",
" e775432809d4a756481b21f03e86814f | \n",
" | \n",
" Oslo | \n",
" 2019 | \n",
" 2019 | \n",
" Oktober | \n",
" nob / dan | \n",
" | \n",
" 839.81374 | \n",
" short story / text | \n",
" Uklassifisert | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 2 | \n",
" 100421703 | \n",
" URN:NBN:no-nb_digibok_2020101909013 | \n",
" Arv og miljø | \n",
" Horn , Kjersti / Hjorth , Vigdis / Strømskag ,... | \n",
" oai:nb.bibsys.no:999919980996802202 | \n",
" 56a5bda1a8c654ff705e17912c7c0974 | \n",
" | \n",
" [Bergen] | \n",
" 20180101 | \n",
" 2018 | \n",
" DNS | \n",
" nob | \n",
" | \n",
" 792.92 | \n",
" drama | \n",
" Skjønnlitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn title \\\n",
"0 100093627 URN:NBN:no-nb_digibok_2012062806027 Drama med Hilde \n",
"1 100598358 URN:NBN:no-nb_digibok_2021110548154 Noveller i utvalg \n",
"2 100421703 URN:NBN:no-nb_digibok_2020101909013 Arv og miljø \n",
"\n",
" authors \\\n",
"0 Hjorth , Vigdis \n",
"1 Ditlevsen , Tove / Hjorth , Vigdis / Hjorth , ... \n",
"2 Horn , Kjersti / Hjorth , Vigdis / Strømskag ,... \n",
"\n",
" oaiid sesamid \\\n",
"0 oai:nb.bibsys.no:998721014364702202 aaf187b65b89076390806e9af57e2085 \n",
"1 oai:nb.bibsys.no:999919973296202202 e775432809d4a756481b21f03e86814f \n",
"2 oai:nb.bibsys.no:999919980996802202 56a5bda1a8c654ff705e17912c7c0974 \n",
"\n",
" isbn10 city timestamp year publisher langs \\\n",
"0 8257405663 / 8202111013 [Oslo] 19870101 1987 Cappelen nob \n",
"1 Oslo 2019 2019 Oktober nob / dan \n",
"2 [Bergen] 20180101 2018 DNS nob \n",
"\n",
" subjects ddc genres \\\n",
"0 skjønnlitteratur/voksen / romaner 839.82 / 839.823 fiction \n",
"1 839.81374 short story / text \n",
"2 792.92 drama \n",
"\n",
" literaryform doctype ocr_creator ocr_timestamp \n",
"0 Skjønnlitteratur digibok nb 20060101 \n",
"1 Uklassifisert digibok nb 20060101 \n",
"2 Skjønnlitteratur digibok nb 20060101 "
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dh.Corpus(author='Vigdis Hjorth', limit=3)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata\n",
"\n",
"Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan [Webdewey](http://deweysearchno.pansoft.de/webdeweysearch/index.html) være til god hjelp."
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 100168555 | \n",
" URN:NBN:no-nb_digibok_2013092006059 | \n",
" Nessekongene : [ de store handelsdynastiene i ... | \n",
" Alsvik , Hans Chr . / Knutsen , Nils M. | \n",
" oai:nb.bibsys.no:998830788994702202 | \n",
" b8cc4cb96de22a8d1da58d66b0de4006 | \n",
" 8205162999 | \n",
" | \n",
" 19880101 | \n",
" 1988 | \n",
" Gyldendal | \n",
" nob | \n",
" Handelssteder / Norge / Handel / Fiske / Fiske... | \n",
" 381.1094843 / 948.43 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 1 | \n",
" 100060623 | \n",
" URN:NBN:no-nb_digibok_2011101908102 | \n",
" Kystbygdene i Sogn og Fjordane : frå 1700-tale... | \n",
" Førsund , Finn Borgen | \n",
" oai:nb.bibsys.no:998641788084702202 | \n",
" 4f965dd5e0de2594dd222118e385e861 | \n",
" | \n",
" | \n",
" 19860101 | \n",
" 1986 | \n",
" | \n",
" nno | \n",
" Norge / kystkultur / Lokalhistorie / sogn / fj... | \n",
" 948.38 / 948.38 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 2 | \n",
" 100321116 | \n",
" URN:NBN:no-nb_digibok_2017010448185 | \n",
" Mausund : vedlikehold og endring i et norsk fi... | \n",
" Kristiansen , Aslak | \n",
" oai:nb.bibsys.no:998660077414702202 | \n",
" b39d7b9c0a4569c645e30a33b93d2766 | \n",
" 8200077381 | \n",
" Tromsø | \n",
" 19850101 | \n",
" 1985 | \n",
" Universitetsforlaget | \n",
" nob | \n",
" sosialantropologi / fiske / fiskevær / Mausund... | \n",
" 306.094841 / 948.948.4112 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"0 100168555 URN:NBN:no-nb_digibok_2013092006059 \n",
"1 100060623 URN:NBN:no-nb_digibok_2011101908102 \n",
"2 100321116 URN:NBN:no-nb_digibok_2017010448185 \n",
"\n",
" title \\\n",
"0 Nessekongene : [ de store handelsdynastiene i ... \n",
"1 Kystbygdene i Sogn og Fjordane : frå 1700-tale... \n",
"2 Mausund : vedlikehold og endring i et norsk fi... \n",
"\n",
" authors \\\n",
"0 Alsvik , Hans Chr . / Knutsen , Nils M. \n",
"1 Førsund , Finn Borgen \n",
"2 Kristiansen , Aslak \n",
"\n",
" oaiid sesamid \\\n",
"0 oai:nb.bibsys.no:998830788994702202 b8cc4cb96de22a8d1da58d66b0de4006 \n",
"1 oai:nb.bibsys.no:998641788084702202 4f965dd5e0de2594dd222118e385e861 \n",
"2 oai:nb.bibsys.no:998660077414702202 b39d7b9c0a4569c645e30a33b93d2766 \n",
"\n",
" isbn10 city timestamp year publisher langs \\\n",
"0 8205162999 19880101 1988 Gyldendal nob \n",
"1 19860101 1986 nno \n",
"2 8200077381 Tromsø 19850101 1985 Universitetsforlaget nob \n",
"\n",
" subjects \\\n",
"0 Handelssteder / Norge / Handel / Fiske / Fiske... \n",
"1 Norge / kystkultur / Lokalhistorie / sogn / fj... \n",
"2 sosialantropologi / fiske / fiskevær / Mausund... \n",
"\n",
" ddc genres literaryform doctype ocr_creator \\\n",
"0 381.1094843 / 948.43 Faglitteratur digibok nb \n",
"1 948.38 / 948.38 Faglitteratur digibok nb \n",
"2 306.094841 / 948.948.4112 Faglitteratur digibok nb \n",
"\n",
" ocr_timestamp \n",
"0 20060101 \n",
"1 20060101 \n",
"2 20060101 "
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dh.Corpus(ddk='9%', subject='fiske', limit=3)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
"
\n",
" \n",
" \n",
" \n",
" 8 | \n",
" 100573078 | \n",
" URN:NBN:no-nb_digibok_2010040803058 | \n",
" Vi valgte det vi ikke kjente : norske krigsdel... | \n",
" Skartveit , Andreas | \n",
" oai:nb.bibsys.no:999506090994702202 | \n",
" d9fd6f3fc5997ab5088de8704fb53917 | \n",
" 8203290590 | \n",
" | \n",
" 19950101 | \n",
" 1995 | \n",
" Forum | \n",
" nob | \n",
" Motstandsbevegelser / Andre verdenskrig / okku... | \n",
" 940.548 / 948.104 / 948.1053 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
"
\n",
" \n",
" 0 | \n",
" 100391927 | \n",
" URN:NBN:no-nb_digibok_2018103007177 | \n",
" Redaktøren : festskrift til Thor Bjarne Bore | \n",
" Hetland , Tom | \n",
" oai:nb.bibsys.no:999917649604702202 | \n",
" 3a4d5a37bf8b92e7864b17f166d6b922 | \n",
" 8299083273 | \n",
" | \n",
" 19990101 | \n",
" 1999 | \n",
" Stavanger aftenblad | \n",
" mul / nob / nno / swe | \n",
" stavanger / aftenblad / redaktører / festskrif... | \n",
" 070 | \n",
" festschrift | \n",
" Faglitteratur | \n",
" digibok | \n",
"
\n",
" \n",
" 79 | \n",
" 100597652 | \n",
" URN:NBN:no-nb_digibok_2021122148591 | \n",
" Sosialdemokratiet i Sverige mot år 2000 : et k... | \n",
" Nesje, Elisabeth | \n",
" oai:nb.bibsys.no:999727919654702202 | \n",
" f3940dea633d69a7bc8af8ae43400637 | \n",
" | \n",
" Bergen | \n",
" 1997 | \n",
" 1997 | \n",
" LOS-senteret | \n",
" nob | \n",
" | \n",
" | \n",
" | \n",
" Uklassifisert | \n",
" digibok | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"8 100573078 URN:NBN:no-nb_digibok_2010040803058 \n",
"0 100391927 URN:NBN:no-nb_digibok_2018103007177 \n",
"79 100597652 URN:NBN:no-nb_digibok_2021122148591 \n",
"\n",
" title authors \\\n",
"8 Vi valgte det vi ikke kjente : norske krigsdel... Skartveit , Andreas \n",
"0 Redaktøren : festskrift til Thor Bjarne Bore Hetland , Tom \n",
"79 Sosialdemokratiet i Sverige mot år 2000 : et k... Nesje, Elisabeth \n",
"\n",
" oaiid sesamid \\\n",
"8 oai:nb.bibsys.no:999506090994702202 d9fd6f3fc5997ab5088de8704fb53917 \n",
"0 oai:nb.bibsys.no:999917649604702202 3a4d5a37bf8b92e7864b17f166d6b922 \n",
"79 oai:nb.bibsys.no:999727919654702202 f3940dea633d69a7bc8af8ae43400637 \n",
"\n",
" isbn10 city timestamp year publisher \\\n",
"8 8203290590 19950101 1995 Forum \n",
"0 8299083273 19990101 1999 Stavanger aftenblad \n",
"79 Bergen 1997 1997 LOS-senteret \n",
"\n",
" langs subjects \\\n",
"8 nob Motstandsbevegelser / Andre verdenskrig / okku... \n",
"0 mul / nob / nno / swe stavanger / aftenblad / redaktører / festskrif... \n",
"79 nob \n",
"\n",
" ddc genres literaryform doctype \n",
"8 940.548 / 948.104 / 948.1053 Faglitteratur digibok \n",
"0 070 festschrift Faglitteratur digibok \n",
"79 Uklassifisert digibok "
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Korpus med flere søkeord"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
"
\n",
" \n",
" \n",
" \n",
" 18 | \n",
" 100295777 | \n",
" URN:NBN:no-nb_digibok_2016052508037 | \n",
" English in practice : Norwegian texts for tran... | \n",
" Holtedahl , Wendy | \n",
" oai:nb.bibsys.no:998030052454702202 | \n",
" e200cadfa58ec3f96399e7b431869521 | \n",
" 8202017173 | \n",
" Oslo | \n",
" 19790101 | \n",
" 1979 | \n",
" Cappelen | \n",
" mul / eng / nob | \n",
" Norsk språk / Oversettelse / Engelsk språk / e... | \n",
" | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
"
\n",
" \n",
" 85 | \n",
" 100402924 | \n",
" URN:NBN:no-nb_digibok_2009020204148 | \n",
" Wir gehen weiter : lesebok for andre års tysko... | \n",
" Ericsson , Eie / Eisenberg , Christian / Lange... | \n",
" oai:nb.bibsys.no:990618909104702202 | \n",
" afca1f955738ff5b5c47ead1118def64 | \n",
" | \n",
" Oslo | \n",
" 19710101 | \n",
" 1971 | \n",
" Aschehoug | \n",
" ger | \n",
" | \n",
" | \n",
" | \n",
" Uklassifisert | \n",
" digibok | \n",
"
\n",
" \n",
" 75 | \n",
" 100506641 | \n",
" URN:NBN:no-nb_digibok_2012031908124 | \n",
" Europa i etterkrigstiden : 9. klasse | \n",
" Jensen , Ronald | \n",
" oai:nb.bibsys.no:990515305114702202 | \n",
" 62c555c800240aeb3c5dfbdb5c1cf591 | \n",
" | \n",
" [Oslo] | \n",
" 19730101 | \n",
" 1973 | \n",
" Bryne | \n",
" nob | \n",
" | \n",
" | \n",
" | \n",
" Uklassifisert | \n",
" digibok | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"18 100295777 URN:NBN:no-nb_digibok_2016052508037 \n",
"85 100402924 URN:NBN:no-nb_digibok_2009020204148 \n",
"75 100506641 URN:NBN:no-nb_digibok_2012031908124 \n",
"\n",
" title \\\n",
"18 English in practice : Norwegian texts for tran... \n",
"85 Wir gehen weiter : lesebok for andre års tysko... \n",
"75 Europa i etterkrigstiden : 9. klasse \n",
"\n",
" authors \\\n",
"18 Holtedahl , Wendy \n",
"85 Ericsson , Eie / Eisenberg , Christian / Lange... \n",
"75 Jensen , Ronald \n",
"\n",
" oaiid sesamid \\\n",
"18 oai:nb.bibsys.no:998030052454702202 e200cadfa58ec3f96399e7b431869521 \n",
"85 oai:nb.bibsys.no:990618909104702202 afca1f955738ff5b5c47ead1118def64 \n",
"75 oai:nb.bibsys.no:990515305114702202 62c555c800240aeb3c5dfbdb5c1cf591 \n",
"\n",
" isbn10 city timestamp year publisher langs \\\n",
"18 8202017173 Oslo 19790101 1979 Cappelen mul / eng / nob \n",
"85 Oslo 19710101 1971 Aschehoug ger \n",
"75 [Oslo] 19730101 1973 Bryne nob \n",
"\n",
" subjects ddc genres \\\n",
"18 Norsk språk / Oversettelse / Engelsk språk / e... \n",
"85 \n",
"75 \n",
"\n",
" literaryform doctype \n",
"18 Faglitteratur digibok \n",
"85 Uklassifisert digibok \n",
"75 Uklassifisert digibok "
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=1960, to_year=1980, limit=3)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Aviskorpus"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 201569962 | \n",
" URN:NBN:no-nb_digavis_sognavis_null_null_20061... | \n",
" sognavis | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" Sogndal | \n",
" 20061014 | \n",
" 2006 | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" digavis | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 1 | \n",
" 201667798 | \n",
" URN:NBN:no-nb_digavis_sunnmorsposten_null_null... | \n",
" sunnmorsposten | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" Ålesund | \n",
" 20061220 | \n",
" 2006 | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" digavis | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 2 | \n",
" 200269484 | \n",
" URN:NBN:no-nb_digavis_budstikkaforaskerogb_nul... | \n",
" budstikkaforaskerogb | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" Asker | \n",
" 20061206 | \n",
" 2006 | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" digavis | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"0 201569962 URN:NBN:no-nb_digavis_sognavis_null_null_20061... \n",
"1 201667798 URN:NBN:no-nb_digavis_sunnmorsposten_null_null... \n",
"2 200269484 URN:NBN:no-nb_digavis_budstikkaforaskerogb_nul... \n",
"\n",
" title authors oaiid sesamid isbn10 city timestamp \\\n",
"0 sognavis Sogndal 20061014 \n",
"1 sunnmorsposten Ålesund 20061220 \n",
"2 budstikkaforaskerogb Asker 20061206 \n",
"\n",
" year publisher langs subjects ddc genres literaryform doctype ocr_creator \\\n",
"0 2006 digavis nb \n",
"1 2006 digavis nb \n",
"2 2006 digavis nb \n",
"\n",
" ocr_timestamp \n",
"0 20060101 \n",
"1 20060101 \n",
"2 20060101 "
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"dh.Corpus(doctype='digavis', from_timestamp=20060101, to_timestamp=20070101, limit=3)"
]
},
{
"attachments": {},
"cell_type": "markdown",
"metadata": {},
"source": [
"### Legg korpuset i en variabel\n",
"\n",
"Variabelen brukes til å referere til korpuset senere"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 100472261 | \n",
" URN:NBN:no-nb_digibok_2010032307035 | \n",
" I villreinens rike : Setesdal Vesthei , Ryfylk... | \n",
" Frøstrup , Johan Christian / Bang-Andersen , S... | \n",
" oai:nb.bibsys.no:990001151004702202 | \n",
" d6e1d58a454d2c15b44d9a225d948c1d | \n",
" 8291495149 | \n",
" | \n",
" 19990101 | \n",
" 1999 | \n",
" Friluftsforl. | \n",
" nob | \n",
" Rein / Jakt / Landskap / Lokalhistorie / Reind... | \n",
" 948.3 / 799.2765 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 1 | \n",
" 100365971 | \n",
" URN:NBN:no-nb_digibok_2018030248103 | \n",
" Om sørsamisk historie : foredrag fra seminar p... | \n",
" Lyngman , Susanne | \n",
" oai:nb.bibsys.no:990715892284702202 | \n",
" 880a89550bf8b4c936eba2b1af050d3a | \n",
" | \n",
" | \n",
" 20070101 | \n",
" 2007 | \n",
" Stiftelsen Saemien Sijte | \n",
" mul / nob / swe / nno | \n",
" Sørsamer / Historie / Samisk kulturminner / Sa... | \n",
" 948 / 948 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 2 | \n",
" 100391168 | \n",
" URN:NBN:no-nb_digibok_2018090607007 | \n",
" Iellemvuoge : boatsojæládus , varresvuohta ja ... | \n",
" Andreassen , Lars Magne / Skarvik , Line Meret... | \n",
" oai:nb.bibsys.no:991302805424702202 | \n",
" bca392a9fb639d273924d4aa7f622e82 | \n",
" | \n",
" | \n",
" 20120101 | \n",
" 2012 | \n",
" Árran julevsáme guovdásj | \n",
" mul / nob / smj / swe | \n",
" Reindrift / Forskning og etikk / Helse / Histo... | \n",
" 636.2 / 948 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 3 | \n",
" 100396443 | \n",
" URN:NBN:no-nb_digibok_2019112807031 | \n",
" Redningsmenn og lykkejegere : norske pionerer ... | \n",
" Andersen , Roy | \n",
" oai:nb.bibsys.no:991218310354702202 | \n",
" 272f96f88d3358cf9c7dba5a4bb397e3 | \n",
" | \n",
" Oslo | \n",
" 20120101 | \n",
" 2012 | \n",
" Aschehoug | \n",
" nob | \n",
" Emigrasjon / Fra Norge / Reindrift / Historie ... | \n",
" 979.8 / 979 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 4 | \n",
" 100204423 | \n",
" URN:NBN:no-nb_digibok_2014050706037 | \n",
" Redningsmenn og lykkejegere : norske pionerer ... | \n",
" Andersen , Roy | \n",
" oai:nb.bibsys.no:991027951184702202 | \n",
" 114a3c37757f0a13bcd1a8f9e1cd1fd6 | \n",
" | \n",
" Oslo | \n",
" 20110101 | \n",
" 2011 | \n",
" Aschehoug | \n",
" nob | \n",
" Reindrift / Historie / Emigrasjon / Fra Norge ... | \n",
" 979.8 / 979.8 / 979.8 / 979 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"0 100472261 URN:NBN:no-nb_digibok_2010032307035 \n",
"1 100365971 URN:NBN:no-nb_digibok_2018030248103 \n",
"2 100391168 URN:NBN:no-nb_digibok_2018090607007 \n",
"3 100396443 URN:NBN:no-nb_digibok_2019112807031 \n",
"4 100204423 URN:NBN:no-nb_digibok_2014050706037 \n",
"\n",
" title \\\n",
"0 I villreinens rike : Setesdal Vesthei , Ryfylk... \n",
"1 Om sørsamisk historie : foredrag fra seminar p... \n",
"2 Iellemvuoge : boatsojæládus , varresvuohta ja ... \n",
"3 Redningsmenn og lykkejegere : norske pionerer ... \n",
"4 Redningsmenn og lykkejegere : norske pionerer ... \n",
"\n",
" authors \\\n",
"0 Frøstrup , Johan Christian / Bang-Andersen , S... \n",
"1 Lyngman , Susanne \n",
"2 Andreassen , Lars Magne / Skarvik , Line Meret... \n",
"3 Andersen , Roy \n",
"4 Andersen , Roy \n",
"\n",
" oaiid sesamid \\\n",
"0 oai:nb.bibsys.no:990001151004702202 d6e1d58a454d2c15b44d9a225d948c1d \n",
"1 oai:nb.bibsys.no:990715892284702202 880a89550bf8b4c936eba2b1af050d3a \n",
"2 oai:nb.bibsys.no:991302805424702202 bca392a9fb639d273924d4aa7f622e82 \n",
"3 oai:nb.bibsys.no:991218310354702202 272f96f88d3358cf9c7dba5a4bb397e3 \n",
"4 oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 \n",
"\n",
" isbn10 city timestamp year publisher \\\n",
"0 8291495149 19990101 1999 Friluftsforl. \n",
"1 20070101 2007 Stiftelsen Saemien Sijte \n",
"2 20120101 2012 Árran julevsáme guovdásj \n",
"3 Oslo 20120101 2012 Aschehoug \n",
"4 Oslo 20110101 2011 Aschehoug \n",
"\n",
" langs subjects \\\n",
"0 nob Rein / Jakt / Landskap / Lokalhistorie / Reind... \n",
"1 mul / nob / swe / nno Sørsamer / Historie / Samisk kulturminner / Sa... \n",
"2 mul / nob / smj / swe Reindrift / Forskning og etikk / Helse / Histo... \n",
"3 nob Emigrasjon / Fra Norge / Reindrift / Historie ... \n",
"4 nob Reindrift / Historie / Emigrasjon / Fra Norge ... \n",
"\n",
" ddc genres literaryform doctype ocr_creator \\\n",
"0 948.3 / 799.2765 Faglitteratur digibok nb \n",
"1 948 / 948 Faglitteratur digibok nb \n",
"2 636.2 / 948 Faglitteratur digibok nb \n",
"3 979.8 / 979 Faglitteratur digibok nb \n",
"4 979.8 / 979.8 / 979.8 / 979 Faglitteratur digibok nb \n",
"\n",
" ocr_timestamp \n",
"0 20060101 \n",
"1 20060101 \n",
"2 20060101 \n",
"3 20060101 \n",
"4 20060101 "
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"korpus = dh.Corpus(ddk=\"9%\", subject=\"reindrift\", from_year=1960, to_year=2020, limit=5)\n",
"korpus"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 2. Bruk av `Corpus`"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"`Corpus` tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:\n",
"\n",
"- **from_identifiers**: \n",
" - Konstruerer et Corpus fra en liste med identifikatorer.\n",
" \n",
"- **from_df**: \n",
" - Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.\n",
" \n",
"- **from_csv**: \n",
" - Importerer et korpus fra csv.\n",
" \n",
"- **extend_from_identifiers**: \n",
" - Utvide korpuset med en liste med identifikatorer.\n",
" \n",
"- **evaluate_words**: \n",
" - Evaluerer en liste med ord mot korpuset. \n",
"\n",
"- **add**: \n",
" - Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.\n",
" \n",
"- **sample**: \n",
" - Oppretter et tilfeldig subkorpus med et gitt antall.\n",
" \n",
"- **conc**: \n",
" - Henter kollokasjoner av gitte ord i korpuset.\n",
" \n",
"- **coll**: \n",
" - Henter kollokasjoner av gitte ord i korpuset.\n",
" \n",
"- **freq**: \n",
" - Henter ordfrekvenser for korpuset."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Ta vare på eller rediger korpuset i excel"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [],
"source": [
"# Korpus-variabel + .corpus + .to_csv(filnavn)\n",
"korpus.frame.to_csv('korpus.csv', index=None)"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
"# Korpus-variabel + .corpus + .csv(filnavn)\n",
"korpus.frame.to_excel('korpus.xlsx', index=None)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Importer korpus fra excel-dokument"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" dhlabid | \n",
" urn | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 100472261 | \n",
" URN:NBN:no-nb_digibok_2010032307035 | \n",
" I villreinens rike : Setesdal Vesthei , Ryfylk... | \n",
" Frøstrup , Johan Christian / Bang-Andersen , S... | \n",
" oai:nb.bibsys.no:990001151004702202 | \n",
" d6e1d58a454d2c15b44d9a225d948c1d | \n",
" 8.291495e+09 | \n",
" NaN | \n",
" 19990101 | \n",
" 1999 | \n",
" Friluftsforl. | \n",
" nob | \n",
" Rein / Jakt / Landskap / Lokalhistorie / Reind... | \n",
" 948.3 / 799.2765 | \n",
" NaN | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 1 | \n",
" 100365971 | \n",
" URN:NBN:no-nb_digibok_2018030248103 | \n",
" Om sørsamisk historie : foredrag fra seminar p... | \n",
" Lyngman , Susanne | \n",
" oai:nb.bibsys.no:990715892284702202 | \n",
" 880a89550bf8b4c936eba2b1af050d3a | \n",
" NaN | \n",
" NaN | \n",
" 20070101 | \n",
" 2007 | \n",
" Stiftelsen Saemien Sijte | \n",
" mul / nob / swe / nno | \n",
" Sørsamer / Historie / Samisk kulturminner / Sa... | \n",
" 948 / 948 | \n",
" NaN | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 2 | \n",
" 100391168 | \n",
" URN:NBN:no-nb_digibok_2018090607007 | \n",
" Iellemvuoge : boatsojæládus , varresvuohta ja ... | \n",
" Andreassen , Lars Magne / Skarvik , Line Meret... | \n",
" oai:nb.bibsys.no:991302805424702202 | \n",
" bca392a9fb639d273924d4aa7f622e82 | \n",
" NaN | \n",
" NaN | \n",
" 20120101 | \n",
" 2012 | \n",
" Árran julevsáme guovdásj | \n",
" mul / nob / smj / swe | \n",
" Reindrift / Forskning og etikk / Helse / Histo... | \n",
" 636.2 / 948 | \n",
" NaN | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 3 | \n",
" 100396443 | \n",
" URN:NBN:no-nb_digibok_2019112807031 | \n",
" Redningsmenn og lykkejegere : norske pionerer ... | \n",
" Andersen , Roy | \n",
" oai:nb.bibsys.no:991218310354702202 | \n",
" 272f96f88d3358cf9c7dba5a4bb397e3 | \n",
" NaN | \n",
" Oslo | \n",
" 20120101 | \n",
" 2012 | \n",
" Aschehoug | \n",
" nob | \n",
" Emigrasjon / Fra Norge / Reindrift / Historie ... | \n",
" 979.8 / 979 | \n",
" NaN | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
" 4 | \n",
" 100204423 | \n",
" URN:NBN:no-nb_digibok_2014050706037 | \n",
" Redningsmenn og lykkejegere : norske pionerer ... | \n",
" Andersen , Roy | \n",
" oai:nb.bibsys.no:991027951184702202 | \n",
" 114a3c37757f0a13bcd1a8f9e1cd1fd6 | \n",
" NaN | \n",
" Oslo | \n",
" 20110101 | \n",
" 2011 | \n",
" Aschehoug | \n",
" nob | \n",
" Reindrift / Historie / Emigrasjon / Fra Norge ... | \n",
" 979.8 / 979.8 / 979.8 / 979 | \n",
" NaN | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" dhlabid urn \\\n",
"0 100472261 URN:NBN:no-nb_digibok_2010032307035 \n",
"1 100365971 URN:NBN:no-nb_digibok_2018030248103 \n",
"2 100391168 URN:NBN:no-nb_digibok_2018090607007 \n",
"3 100396443 URN:NBN:no-nb_digibok_2019112807031 \n",
"4 100204423 URN:NBN:no-nb_digibok_2014050706037 \n",
"\n",
" title \\\n",
"0 I villreinens rike : Setesdal Vesthei , Ryfylk... \n",
"1 Om sørsamisk historie : foredrag fra seminar p... \n",
"2 Iellemvuoge : boatsojæládus , varresvuohta ja ... \n",
"3 Redningsmenn og lykkejegere : norske pionerer ... \n",
"4 Redningsmenn og lykkejegere : norske pionerer ... \n",
"\n",
" authors \\\n",
"0 Frøstrup , Johan Christian / Bang-Andersen , S... \n",
"1 Lyngman , Susanne \n",
"2 Andreassen , Lars Magne / Skarvik , Line Meret... \n",
"3 Andersen , Roy \n",
"4 Andersen , Roy \n",
"\n",
" oaiid sesamid \\\n",
"0 oai:nb.bibsys.no:990001151004702202 d6e1d58a454d2c15b44d9a225d948c1d \n",
"1 oai:nb.bibsys.no:990715892284702202 880a89550bf8b4c936eba2b1af050d3a \n",
"2 oai:nb.bibsys.no:991302805424702202 bca392a9fb639d273924d4aa7f622e82 \n",
"3 oai:nb.bibsys.no:991218310354702202 272f96f88d3358cf9c7dba5a4bb397e3 \n",
"4 oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 \n",
"\n",
" isbn10 city timestamp year publisher \\\n",
"0 8.291495e+09 NaN 19990101 1999 Friluftsforl. \n",
"1 NaN NaN 20070101 2007 Stiftelsen Saemien Sijte \n",
"2 NaN NaN 20120101 2012 Árran julevsáme guovdásj \n",
"3 NaN Oslo 20120101 2012 Aschehoug \n",
"4 NaN Oslo 20110101 2011 Aschehoug \n",
"\n",
" langs subjects \\\n",
"0 nob Rein / Jakt / Landskap / Lokalhistorie / Reind... \n",
"1 mul / nob / swe / nno Sørsamer / Historie / Samisk kulturminner / Sa... \n",
"2 mul / nob / smj / swe Reindrift / Forskning og etikk / Helse / Histo... \n",
"3 nob Emigrasjon / Fra Norge / Reindrift / Historie ... \n",
"4 nob Reindrift / Historie / Emigrasjon / Fra Norge ... \n",
"\n",
" ddc genres literaryform doctype ocr_creator \\\n",
"0 948.3 / 799.2765 NaN Faglitteratur digibok nb \n",
"1 948 / 948 NaN Faglitteratur digibok nb \n",
"2 636.2 / 948 NaN Faglitteratur digibok nb \n",
"3 979.8 / 979 NaN Faglitteratur digibok nb \n",
"4 979.8 / 979.8 / 979.8 / 979 NaN Faglitteratur digibok nb \n",
"\n",
" ocr_timestamp \n",
"0 20060101 \n",
"1 20060101 \n",
"2 20060101 \n",
"3 20060101 \n",
"4 20060101 "
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"korpus = nb.restore_metadata_from_excel('korpus.xlsx')\n",
"korpus"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"### Bygg korpus fra boksøk på nb.no\n",
"\n",
"Søk etter bøker på [nb.no](https://www.nb.no/search?q=), legg til *debugon* sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom \"\"\" ... \"\"\" nedenfor. Kommandoen som brukes er `pure_urn()` som prøver å finne URN-er i alt mulig av tekst."
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"urns = nb.pure_urn(\"\"\"\n",
"\n",
"--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:\n",
"Vigdis Hjorth : et forfatterportrett\n",
"Jenssen, Ruth | Biblioteksentralen\n",
"1994\n",
"(api)\n",
"id: 7f0b021f40bf6804bca32e5b79e8d66a\n",
"urn: URN:NBN:no-nb_digibok_2015090158054\n",
"isDigital: true\n",
"viewability: ALL\n",
"allowedFrom: NORWAY\n",
"contentClasses:\n",
"legaldeposit\n",
"bokhylla\n",
"jp2\n",
"Som om ingenting : bare om Vigdis Hjorth\n",
"Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag\n",
"2009\n",
"(api)\n",
"id: 847bd73c3318f6874a66d0f969ba495a\n",
"urn: URN:NBN:no-nb_digibok_2011051820014\n",
"isDigital: true\n",
"viewability: ALL\n",
"allowedFrom: NB\n",
"contentClasses:\n",
"restricted\n",
"legaldeposit\n",
"jp2\n",
"Leve posthornet! : Vigdis Hjorth\n",
"Horn, Ellen | Riksteatret\n",
"2014\n",
"(api)\n",
"id: e6d86eeb4ac8509533d647c9793f01dc\n",
"urn: URN:NBN:no-nb_digibok_2014091948002\n",
"isDigital: true\n",
"viewability: ALL\n",
"allowedFrom: EVERYWHERE\n",
"contentClasses:\n",
"public\n",
"legaldeposit\n",
"jp2\n",
"Fryd og fare : essay om diktning og eksistens\n",
"Hjorth, Vigdis\n",
"2013\n",
"(api)\n",
"id: 5ecd6c199ff74aa7c57c2292b61df17d\n",
"urn: URN:NBN:no-nb_digibok_2018031548382\n",
"--- teksten er kuttet her\n",
"\"\"\")\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [],
"source": [
"# Legger til URN-prefix for hver URN\n",
"urns = [\"URN:NBN:no-nb_digibok_\" + x for x in urns]"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" urn | \n",
" dhlabid | \n",
" title | \n",
" authors | \n",
" oaiid | \n",
" sesamid | \n",
" isbn10 | \n",
" city | \n",
" timestamp | \n",
" year | \n",
" publisher | \n",
" langs | \n",
" subjects | \n",
" ddc | \n",
" genres | \n",
" literaryform | \n",
" doctype | \n",
" ocr_creator | \n",
" ocr_timestamp | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" URN:NBN:no-nb_digibok_2015090158054 | \n",
" 100267417.0 | \n",
" Vigdis Hjorth : et forfatterportrett | \n",
" Jenssen , Ruth | \n",
" oai:nb.bibsys.no:999409908064702202 | \n",
" 7f0b021f40bf6804bca32e5b79e8d66a | \n",
" | \n",
" [Oslo] | \n",
" 19940101.0 | \n",
" 1994.0 | \n",
" Biblioteksentralen | \n",
" nob | \n",
" | \n",
" | \n",
" | \n",
" Uklassifisert | \n",
" digibok | \n",
" nb | \n",
" 20060101.0 | \n",
"
\n",
" \n",
" 1 | \n",
" URN:NBN:no-nb_digibok_2018031548382 | \n",
" 100367884.0 | \n",
" Fryd og fare : essay om diktning og eksistens | \n",
" Hjorth , Vigdis | \n",
" oai:nb.bibsys.no:991334240574702202 | \n",
" 5ecd6c199ff74aa7c57c2292b61df17d | \n",
" | \n",
" [Oslo] | \n",
" 20130101.0 | \n",
" 2013.0 | \n",
" Cappelen Damm | \n",
" nob | \n",
" Historisk framstilling / Norsk litteratur / Li... | \n",
" 809 / 839.824 / 809 / 839.824 | \n",
" | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101.0 | \n",
"
\n",
" \n",
" 2 | \n",
" URN:NBN:no-nb_digibok_2014091948002 | \n",
" 100496097.0 | \n",
" Leve posthornet ! : Vigdis Hjorth | \n",
" Horn , Ellen | \n",
" oai:nb.bibsys.no:991429153194702202 | \n",
" e6d86eeb4ac8509533d647c9793f01dc | \n",
" | \n",
" [Oslo] | \n",
" 20140101.0 | \n",
" 2014.0 | \n",
" Riksteatret | \n",
" nob | \n",
" | \n",
" | \n",
" | \n",
" Uklassifisert | \n",
" digibok | \n",
" nb | \n",
" 20060101.0 | \n",
"
\n",
" \n",
" 3 | \n",
" URN:NBN:no-nb_digibok_2011051820014 | \n",
" 100579548.0 | \n",
" Som om ingenting : bare om Vigdis Hjorth | \n",
" Linneberg , Arild / Hjorth , Vigdis / Solstad ... | \n",
" oai:nb.bibsys.no:990925957234702202 | \n",
" 847bd73c3318f6874a66d0f969ba495a | \n",
" | \n",
" [Oslo] | \n",
" 20090101.0 | \n",
" 2009.0 | \n",
" Cappelen Damm | \n",
" nob | \n",
" Norsk litteratur | \n",
" 839.828 / 839.828 | \n",
" festschrift | \n",
" Faglitteratur | \n",
" digibok | \n",
" nb | \n",
" 20060101.0 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" urn dhlabid \\\n",
"0 URN:NBN:no-nb_digibok_2015090158054 100267417.0 \n",
"1 URN:NBN:no-nb_digibok_2018031548382 100367884.0 \n",
"2 URN:NBN:no-nb_digibok_2014091948002 100496097.0 \n",
"3 URN:NBN:no-nb_digibok_2011051820014 100579548.0 \n",
"\n",
" title \\\n",
"0 Vigdis Hjorth : et forfatterportrett \n",
"1 Fryd og fare : essay om diktning og eksistens \n",
"2 Leve posthornet ! : Vigdis Hjorth \n",
"3 Som om ingenting : bare om Vigdis Hjorth \n",
"\n",
" authors \\\n",
"0 Jenssen , Ruth \n",
"1 Hjorth , Vigdis \n",
"2 Horn , Ellen \n",
"3 Linneberg , Arild / Hjorth , Vigdis / Solstad ... \n",
"\n",
" oaiid sesamid \\\n",
"0 oai:nb.bibsys.no:999409908064702202 7f0b021f40bf6804bca32e5b79e8d66a \n",
"1 oai:nb.bibsys.no:991334240574702202 5ecd6c199ff74aa7c57c2292b61df17d \n",
"2 oai:nb.bibsys.no:991429153194702202 e6d86eeb4ac8509533d647c9793f01dc \n",
"3 oai:nb.bibsys.no:990925957234702202 847bd73c3318f6874a66d0f969ba495a \n",
"\n",
" isbn10 city timestamp year publisher langs \\\n",
"0 [Oslo] 19940101.0 1994.0 Biblioteksentralen nob \n",
"1 [Oslo] 20130101.0 2013.0 Cappelen Damm nob \n",
"2 [Oslo] 20140101.0 2014.0 Riksteatret nob \n",
"3 [Oslo] 20090101.0 2009.0 Cappelen Damm nob \n",
"\n",
" subjects \\\n",
"0 \n",
"1 Historisk framstilling / Norsk litteratur / Li... \n",
"2 \n",
"3 Norsk litteratur \n",
"\n",
" ddc genres literaryform doctype \\\n",
"0 Uklassifisert digibok \n",
"1 809 / 839.824 / 809 / 839.824 Faglitteratur digibok \n",
"2 Uklassifisert digibok \n",
"3 839.828 / 839.828 festschrift Faglitteratur digibok \n",
"\n",
" ocr_creator ocr_timestamp \n",
"0 nb 20060101.0 \n",
"1 nb 20060101.0 \n",
"2 nb 20060101.0 \n",
"3 nb 20060101.0 "
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"c = dh.Corpus() # Tomt korpus objekt\n",
"c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over\n",
"c # Viser korpuset"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Tilbake til [DHLAB ved Nasjonalbiblioteket](https://nbviewer.jupyter.org/github/DH-LAB-NB/DHLAB/blob/master/DHLAB_ved_Nasjonalbiblioteket.ipynb)"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "dhlab",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.12"
},
"toc": {
"base_numbering": 1,
"nav_menu": {},
"number_sections": true,
"sideBar": true,
"skip_h1_title": false,
"title_cell": "Table of Contents",
"title_sidebar": "Contents",
"toc_cell": false,
"toc_position": {},
"toc_section_display": true,
"toc_window_display": false
},
"varInspector": {
"cols": {
"lenName": 16,
"lenType": 16,
"lenVar": 40
},
"kernels_config": {
"python": {
"delete_cmd_postfix": "",
"delete_cmd_prefix": "del ",
"library": "var_list.py",
"varRefreshCmd": "print(var_dic_list())"
},
"r": {
"delete_cmd_postfix": ") ",
"delete_cmd_prefix": "rm(",
"library": "var_list.r",
"varRefreshCmd": "cat(var_dic_list()) "
}
},
"types_to_exclude": [
"module",
"function",
"builtin_function_or_method",
"instance",
"_Feature"
],
"window_display": false
},
"vscode": {
"interpreter": {
"hash": "1d1df0d064732dbd8ae09ceab87be2790d7eed279040ea9405054873f855fb6c"
}
}
},
"nbformat": 4,
"nbformat_minor": 2
}