{ "cells": [ { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "## N-grams\n", "\n", "An n-gram is a contiguous sequence of n items from a given sample of text or speech. An n-gram of size 1 is referred to as a \"unigram\"; size 2 is a \"bigram\" (or, less commonly, a \"digram\"); size 3 is a \"trigram\". Larger sizes are sometimes referred to by the value of n in modern language, e.g., \"four-gram\", \"five-gram\", and so on." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "#import necessary modules\n", "\n", "from nltk.tokenize.punkt import PunktLanguageVars\n", "from nltk.util import bigrams\n", "from nltk.util import trigrams\n", "from nltk.util import ngrams" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "#declaring sentence and tokenizing it\n", "\n", "s = 'Ut primum nocte discussa sol novus diem fecit, et somno simul emersus et lectulo, anxius alioquin et nimis cupidus cognoscendi quae rara miraque sunt, reputansque me media Thessaliae loca tenere qua artis magicae nativa cantamina totius orbis consono orbe celebrentur fabulamque illam optimi comitis Aristomenis de situ civitatis huius exortam, suspensus alioquin et voto simul et studio, curiose singula considerabam. Nec fuit in illa civitate quod aspiciens id esse crederem quod esset, sed omnia prorsus ferali murmure in aliam effigiem translata, ut et lapides quos offenderem de homine duratos et aves quas audirem indidem plumatas et arbores quae pomerium ambirent similiter foliatas et fontanos latices de corporibus humanis fluxos crederem; iam statuas et imagines incessuras, parietes locuturos, boves et id genus pecua dicturas praesagium, de ipso vero caelo et iubaris orbe subito venturum oraculum.'.lower()\n", "p = PunktLanguageVars()\n", "tokens = p.word_tokenize(s)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[('ut', 'primum'),\n", " ('primum', 'nocte'),\n", " ('nocte', 'discussa'),\n", " ('discussa', 'sol'),\n", " ('sol', 'novus'),\n", " ('novus', 'diem'),\n", " ('diem', 'fecit'),\n", " ('fecit', ','),\n", " (',', 'et'),\n", " ('et', 'somno'),\n", " ('somno', 'simul'),\n", " ('simul', 'emersus'),\n", " ('emersus', 'et'),\n", " ('et', 'lectulo'),\n", " ('lectulo', ','),\n", " (',', 'anxius'),\n", " ('anxius', 'alioquin'),\n", " ('alioquin', 'et'),\n", " ('et', 'nimis'),\n", " ('nimis', 'cupidus'),\n", " ('cupidus', 'cognoscendi'),\n", " ('cognoscendi', 'quae'),\n", " ('quae', 'rara'),\n", " ('rara', 'miraque'),\n", " ('miraque', 'sunt'),\n", " ('sunt', ','),\n", " (',', 'reputansque'),\n", " ('reputansque', 'me'),\n", " ('me', 'media'),\n", " ('media', 'thessaliae'),\n", " ('thessaliae', 'loca'),\n", " ('loca', 'tenere'),\n", " ('tenere', 'qua'),\n", " ('qua', 'artis'),\n", " ('artis', 'magicae'),\n", " ('magicae', 'nativa'),\n", " ('nativa', 'cantamina'),\n", " ('cantamina', 'totius'),\n", " ('totius', 'orbis'),\n", " ('orbis', 'consono'),\n", " ('consono', 'orbe'),\n", " ('orbe', 'celebrentur'),\n", " ('celebrentur', 'fabulamque'),\n", " ('fabulamque', 'illam'),\n", " ('illam', 'optimi'),\n", " ('optimi', 'comitis'),\n", " ('comitis', 'aristomenis'),\n", " ('aristomenis', 'de'),\n", " ('de', 'situ'),\n", " ('situ', 'civitatis'),\n", " ('civitatis', 'huius'),\n", " ('huius', 'exortam'),\n", " ('exortam', ','),\n", " (',', 'suspensus'),\n", " ('suspensus', 'alioquin'),\n", " ('alioquin', 'et'),\n", " ('et', 'voto'),\n", " ('voto', 'simul'),\n", " ('simul', 'et'),\n", " ('et', 'studio'),\n", " ('studio', ','),\n", " (',', 'curiose'),\n", " ('curiose', 'singula'),\n", " ('singula', 'considerabam.'),\n", " ('considerabam.', 'nec'),\n", " ('nec', 'fuit'),\n", " ('fuit', 'in'),\n", " ('in', 'illa'),\n", " ('illa', 'civitate'),\n", " ('civitate', 'quod'),\n", " ('quod', 'aspiciens'),\n", " ('aspiciens', 'id'),\n", " ('id', 'esse'),\n", " ('esse', 'crederem'),\n", " ('crederem', 'quod'),\n", " ('quod', 'esset'),\n", " ('esset', ','),\n", " (',', 'sed'),\n", " ('sed', 'omnia'),\n", " ('omnia', 'prorsus'),\n", " ('prorsus', 'ferali'),\n", " ('ferali', 'murmure'),\n", " ('murmure', 'in'),\n", " ('in', 'aliam'),\n", " ('aliam', 'effigiem'),\n", " ('effigiem', 'translata'),\n", " ('translata', ','),\n", " (',', 'ut'),\n", " ('ut', 'et'),\n", " ('et', 'lapides'),\n", " ('lapides', 'quos'),\n", " ('quos', 'offenderem'),\n", " ('offenderem', 'de'),\n", " ('de', 'homine'),\n", " ('homine', 'duratos'),\n", " ('duratos', 'et'),\n", " ('et', 'aves'),\n", " ('aves', 'quas'),\n", " ('quas', 'audirem'),\n", " ('audirem', 'indidem'),\n", " ('indidem', 'plumatas'),\n", " ('plumatas', 'et'),\n", " ('et', 'arbores'),\n", " ('arbores', 'quae'),\n", " ('quae', 'pomerium'),\n", " ('pomerium', 'ambirent'),\n", " ('ambirent', 'similiter'),\n", " ('similiter', 'foliatas'),\n", " ('foliatas', 'et'),\n", " ('et', 'fontanos'),\n", " ('fontanos', 'latices'),\n", " ('latices', 'de'),\n", " ('de', 'corporibus'),\n", " ('corporibus', 'humanis'),\n", " ('humanis', 'fluxos'),\n", " ('fluxos', 'crederem'),\n", " ('crederem', ';'),\n", " (';', 'iam'),\n", " ('iam', 'statuas'),\n", " ('statuas', 'et'),\n", " ('et', 'imagines'),\n", " ('imagines', 'incessuras'),\n", " ('incessuras', ','),\n", " (',', 'parietes'),\n", " ('parietes', 'locuturos'),\n", " ('locuturos', ','),\n", " (',', 'boves'),\n", " ('boves', 'et'),\n", " ('et', 'id'),\n", " ('id', 'genus'),\n", " ('genus', 'pecua'),\n", " ('pecua', 'dicturas'),\n", " ('dicturas', 'praesagium'),\n", " ('praesagium', ','),\n", " (',', 'de'),\n", " ('de', 'ipso'),\n", " ('ipso', 'vero'),\n", " ('vero', 'caelo'),\n", " ('caelo', 'et'),\n", " ('et', 'iubaris'),\n", " ('iubaris', 'orbe'),\n", " ('orbe', 'subito'),\n", " ('subito', 'venturum'),\n", " ('venturum', 'oraculum.')]" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "#using bigrams(2 words at a time)\n", "\n", "b = bigrams(tokens)\n", "[x for x in b]" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[('ut', 'primum', 'nocte'),\n", " ('primum', 'nocte', 'discussa'),\n", " ('nocte', 'discussa', 'sol'),\n", " ('discussa', 'sol', 'novus'),\n", " ('sol', 'novus', 'diem'),\n", " ('novus', 'diem', 'fecit'),\n", " ('diem', 'fecit', ','),\n", " ('fecit', ',', 'et'),\n", " (',', 'et', 'somno'),\n", " ('et', 'somno', 'simul'),\n", " ('somno', 'simul', 'emersus'),\n", " ('simul', 'emersus', 'et'),\n", " ('emersus', 'et', 'lectulo'),\n", " ('et', 'lectulo', ','),\n", " ('lectulo', ',', 'anxius'),\n", " (',', 'anxius', 'alioquin'),\n", " ('anxius', 'alioquin', 'et'),\n", " ('alioquin', 'et', 'nimis'),\n", " ('et', 'nimis', 'cupidus'),\n", " ('nimis', 'cupidus', 'cognoscendi'),\n", " ('cupidus', 'cognoscendi', 'quae'),\n", " ('cognoscendi', 'quae', 'rara'),\n", " ('quae', 'rara', 'miraque'),\n", " ('rara', 'miraque', 'sunt'),\n", " ('miraque', 'sunt', ','),\n", " ('sunt', ',', 'reputansque'),\n", " (',', 'reputansque', 'me'),\n", " ('reputansque', 'me', 'media'),\n", " ('me', 'media', 'thessaliae'),\n", " ('media', 'thessaliae', 'loca'),\n", " ('thessaliae', 'loca', 'tenere'),\n", " ('loca', 'tenere', 'qua'),\n", " ('tenere', 'qua', 'artis'),\n", " ('qua', 'artis', 'magicae'),\n", " ('artis', 'magicae', 'nativa'),\n", " ('magicae', 'nativa', 'cantamina'),\n", " ('nativa', 'cantamina', 'totius'),\n", " ('cantamina', 'totius', 'orbis'),\n", " ('totius', 'orbis', 'consono'),\n", " ('orbis', 'consono', 'orbe'),\n", " ('consono', 'orbe', 'celebrentur'),\n", " ('orbe', 'celebrentur', 'fabulamque'),\n", " ('celebrentur', 'fabulamque', 'illam'),\n", " ('fabulamque', 'illam', 'optimi'),\n", " ('illam', 'optimi', 'comitis'),\n", " ('optimi', 'comitis', 'aristomenis'),\n", " ('comitis', 'aristomenis', 'de'),\n", " ('aristomenis', 'de', 'situ'),\n", " ('de', 'situ', 'civitatis'),\n", " ('situ', 'civitatis', 'huius'),\n", " ('civitatis', 'huius', 'exortam'),\n", " ('huius', 'exortam', ','),\n", " ('exortam', ',', 'suspensus'),\n", " (',', 'suspensus', 'alioquin'),\n", " ('suspensus', 'alioquin', 'et'),\n", " ('alioquin', 'et', 'voto'),\n", " ('et', 'voto', 'simul'),\n", " ('voto', 'simul', 'et'),\n", " ('simul', 'et', 'studio'),\n", " ('et', 'studio', ','),\n", " ('studio', ',', 'curiose'),\n", " (',', 'curiose', 'singula'),\n", " ('curiose', 'singula', 'considerabam.'),\n", " ('singula', 'considerabam.', 'nec'),\n", " ('considerabam.', 'nec', 'fuit'),\n", " ('nec', 'fuit', 'in'),\n", " ('fuit', 'in', 'illa'),\n", " ('in', 'illa', 'civitate'),\n", " ('illa', 'civitate', 'quod'),\n", " ('civitate', 'quod', 'aspiciens'),\n", " ('quod', 'aspiciens', 'id'),\n", " ('aspiciens', 'id', 'esse'),\n", " ('id', 'esse', 'crederem'),\n", " ('esse', 'crederem', 'quod'),\n", " ('crederem', 'quod', 'esset'),\n", " ('quod', 'esset', ','),\n", " ('esset', ',', 'sed'),\n", " (',', 'sed', 'omnia'),\n", " ('sed', 'omnia', 'prorsus'),\n", " ('omnia', 'prorsus', 'ferali'),\n", " ('prorsus', 'ferali', 'murmure'),\n", " ('ferali', 'murmure', 'in'),\n", " ('murmure', 'in', 'aliam'),\n", " ('in', 'aliam', 'effigiem'),\n", " ('aliam', 'effigiem', 'translata'),\n", " ('effigiem', 'translata', ','),\n", " ('translata', ',', 'ut'),\n", " (',', 'ut', 'et'),\n", " ('ut', 'et', 'lapides'),\n", " ('et', 'lapides', 'quos'),\n", " ('lapides', 'quos', 'offenderem'),\n", " ('quos', 'offenderem', 'de'),\n", " ('offenderem', 'de', 'homine'),\n", " ('de', 'homine', 'duratos'),\n", " ('homine', 'duratos', 'et'),\n", " ('duratos', 'et', 'aves'),\n", " ('et', 'aves', 'quas'),\n", " ('aves', 'quas', 'audirem'),\n", " ('quas', 'audirem', 'indidem'),\n", " ('audirem', 'indidem', 'plumatas'),\n", " ('indidem', 'plumatas', 'et'),\n", " ('plumatas', 'et', 'arbores'),\n", " ('et', 'arbores', 'quae'),\n", " ('arbores', 'quae', 'pomerium'),\n", " ('quae', 'pomerium', 'ambirent'),\n", " ('pomerium', 'ambirent', 'similiter'),\n", " ('ambirent', 'similiter', 'foliatas'),\n", " ('similiter', 'foliatas', 'et'),\n", " ('foliatas', 'et', 'fontanos'),\n", " ('et', 'fontanos', 'latices'),\n", " ('fontanos', 'latices', 'de'),\n", " ('latices', 'de', 'corporibus'),\n", " ('de', 'corporibus', 'humanis'),\n", " ('corporibus', 'humanis', 'fluxos'),\n", " ('humanis', 'fluxos', 'crederem'),\n", " ('fluxos', 'crederem', ';'),\n", " ('crederem', ';', 'iam'),\n", " (';', 'iam', 'statuas'),\n", " ('iam', 'statuas', 'et'),\n", " ('statuas', 'et', 'imagines'),\n", " ('et', 'imagines', 'incessuras'),\n", " ('imagines', 'incessuras', ','),\n", " ('incessuras', ',', 'parietes'),\n", " (',', 'parietes', 'locuturos'),\n", " ('parietes', 'locuturos', ','),\n", " ('locuturos', ',', 'boves'),\n", " (',', 'boves', 'et'),\n", " ('boves', 'et', 'id'),\n", " ('et', 'id', 'genus'),\n", " ('id', 'genus', 'pecua'),\n", " ('genus', 'pecua', 'dicturas'),\n", " ('pecua', 'dicturas', 'praesagium'),\n", " ('dicturas', 'praesagium', ','),\n", " ('praesagium', ',', 'de'),\n", " (',', 'de', 'ipso'),\n", " ('de', 'ipso', 'vero'),\n", " ('ipso', 'vero', 'caelo'),\n", " ('vero', 'caelo', 'et'),\n", " ('caelo', 'et', 'iubaris'),\n", " ('et', 'iubaris', 'orbe'),\n", " ('iubaris', 'orbe', 'subito'),\n", " ('orbe', 'subito', 'venturum'),\n", " ('subito', 'venturum', 'oraculum.')]" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "#using trigrams(3 words at a time)\n", "\n", "t = trigrams(tokens)\n", "[x for x in t]" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[('ut', 'primum', 'nocte', 'discussa', 'sol'),\n", " ('primum', 'nocte', 'discussa', 'sol', 'novus'),\n", " ('nocte', 'discussa', 'sol', 'novus', 'diem'),\n", " ('discussa', 'sol', 'novus', 'diem', 'fecit'),\n", " ('sol', 'novus', 'diem', 'fecit', ','),\n", " ('novus', 'diem', 'fecit', ',', 'et'),\n", " ('diem', 'fecit', ',', 'et', 'somno'),\n", " ('fecit', ',', 'et', 'somno', 'simul'),\n", " (',', 'et', 'somno', 'simul', 'emersus'),\n", " ('et', 'somno', 'simul', 'emersus', 'et'),\n", " ('somno', 'simul', 'emersus', 'et', 'lectulo'),\n", " ('simul', 'emersus', 'et', 'lectulo', ','),\n", " ('emersus', 'et', 'lectulo', ',', 'anxius'),\n", " ('et', 'lectulo', ',', 'anxius', 'alioquin'),\n", " ('lectulo', ',', 'anxius', 'alioquin', 'et'),\n", " (',', 'anxius', 'alioquin', 'et', 'nimis'),\n", " ('anxius', 'alioquin', 'et', 'nimis', 'cupidus'),\n", " ('alioquin', 'et', 'nimis', 'cupidus', 'cognoscendi'),\n", " ('et', 'nimis', 'cupidus', 'cognoscendi', 'quae'),\n", " ('nimis', 'cupidus', 'cognoscendi', 'quae', 'rara'),\n", " ('cupidus', 'cognoscendi', 'quae', 'rara', 'miraque'),\n", " ('cognoscendi', 'quae', 'rara', 'miraque', 'sunt'),\n", " ('quae', 'rara', 'miraque', 'sunt', ','),\n", " ('rara', 'miraque', 'sunt', ',', 'reputansque'),\n", " ('miraque', 'sunt', ',', 'reputansque', 'me'),\n", " ('sunt', ',', 'reputansque', 'me', 'media'),\n", " (',', 'reputansque', 'me', 'media', 'thessaliae'),\n", " ('reputansque', 'me', 'media', 'thessaliae', 'loca'),\n", " ('me', 'media', 'thessaliae', 'loca', 'tenere'),\n", " ('media', 'thessaliae', 'loca', 'tenere', 'qua'),\n", " ('thessaliae', 'loca', 'tenere', 'qua', 'artis'),\n", " ('loca', 'tenere', 'qua', 'artis', 'magicae'),\n", " ('tenere', 'qua', 'artis', 'magicae', 'nativa'),\n", " ('qua', 'artis', 'magicae', 'nativa', 'cantamina'),\n", " ('artis', 'magicae', 'nativa', 'cantamina', 'totius'),\n", " ('magicae', 'nativa', 'cantamina', 'totius', 'orbis'),\n", " ('nativa', 'cantamina', 'totius', 'orbis', 'consono'),\n", " ('cantamina', 'totius', 'orbis', 'consono', 'orbe'),\n", " ('totius', 'orbis', 'consono', 'orbe', 'celebrentur'),\n", " ('orbis', 'consono', 'orbe', 'celebrentur', 'fabulamque'),\n", " ('consono', 'orbe', 'celebrentur', 'fabulamque', 'illam'),\n", " ('orbe', 'celebrentur', 'fabulamque', 'illam', 'optimi'),\n", " ('celebrentur', 'fabulamque', 'illam', 'optimi', 'comitis'),\n", " ('fabulamque', 'illam', 'optimi', 'comitis', 'aristomenis'),\n", " ('illam', 'optimi', 'comitis', 'aristomenis', 'de'),\n", " ('optimi', 'comitis', 'aristomenis', 'de', 'situ'),\n", " ('comitis', 'aristomenis', 'de', 'situ', 'civitatis'),\n", " ('aristomenis', 'de', 'situ', 'civitatis', 'huius'),\n", " ('de', 'situ', 'civitatis', 'huius', 'exortam'),\n", " ('situ', 'civitatis', 'huius', 'exortam', ','),\n", " ('civitatis', 'huius', 'exortam', ',', 'suspensus'),\n", " ('huius', 'exortam', ',', 'suspensus', 'alioquin'),\n", " ('exortam', ',', 'suspensus', 'alioquin', 'et'),\n", " (',', 'suspensus', 'alioquin', 'et', 'voto'),\n", " ('suspensus', 'alioquin', 'et', 'voto', 'simul'),\n", " ('alioquin', 'et', 'voto', 'simul', 'et'),\n", " ('et', 'voto', 'simul', 'et', 'studio'),\n", " ('voto', 'simul', 'et', 'studio', ','),\n", " ('simul', 'et', 'studio', ',', 'curiose'),\n", " ('et', 'studio', ',', 'curiose', 'singula'),\n", " ('studio', ',', 'curiose', 'singula', 'considerabam.'),\n", " (',', 'curiose', 'singula', 'considerabam.', 'nec'),\n", " ('curiose', 'singula', 'considerabam.', 'nec', 'fuit'),\n", " ('singula', 'considerabam.', 'nec', 'fuit', 'in'),\n", " ('considerabam.', 'nec', 'fuit', 'in', 'illa'),\n", " ('nec', 'fuit', 'in', 'illa', 'civitate'),\n", " ('fuit', 'in', 'illa', 'civitate', 'quod'),\n", " ('in', 'illa', 'civitate', 'quod', 'aspiciens'),\n", " ('illa', 'civitate', 'quod', 'aspiciens', 'id'),\n", " ('civitate', 'quod', 'aspiciens', 'id', 'esse'),\n", " ('quod', 'aspiciens', 'id', 'esse', 'crederem'),\n", " ('aspiciens', 'id', 'esse', 'crederem', 'quod'),\n", " ('id', 'esse', 'crederem', 'quod', 'esset'),\n", " ('esse', 'crederem', 'quod', 'esset', ','),\n", " ('crederem', 'quod', 'esset', ',', 'sed'),\n", " ('quod', 'esset', ',', 'sed', 'omnia'),\n", " ('esset', ',', 'sed', 'omnia', 'prorsus'),\n", " (',', 'sed', 'omnia', 'prorsus', 'ferali'),\n", " ('sed', 'omnia', 'prorsus', 'ferali', 'murmure'),\n", " ('omnia', 'prorsus', 'ferali', 'murmure', 'in'),\n", " ('prorsus', 'ferali', 'murmure', 'in', 'aliam'),\n", " ('ferali', 'murmure', 'in', 'aliam', 'effigiem'),\n", " ('murmure', 'in', 'aliam', 'effigiem', 'translata'),\n", " ('in', 'aliam', 'effigiem', 'translata', ','),\n", " ('aliam', 'effigiem', 'translata', ',', 'ut'),\n", " ('effigiem', 'translata', ',', 'ut', 'et'),\n", " ('translata', ',', 'ut', 'et', 'lapides'),\n", " (',', 'ut', 'et', 'lapides', 'quos'),\n", " ('ut', 'et', 'lapides', 'quos', 'offenderem'),\n", " ('et', 'lapides', 'quos', 'offenderem', 'de'),\n", " ('lapides', 'quos', 'offenderem', 'de', 'homine'),\n", " ('quos', 'offenderem', 'de', 'homine', 'duratos'),\n", " ('offenderem', 'de', 'homine', 'duratos', 'et'),\n", " ('de', 'homine', 'duratos', 'et', 'aves'),\n", " ('homine', 'duratos', 'et', 'aves', 'quas'),\n", " ('duratos', 'et', 'aves', 'quas', 'audirem'),\n", " ('et', 'aves', 'quas', 'audirem', 'indidem'),\n", " ('aves', 'quas', 'audirem', 'indidem', 'plumatas'),\n", " ('quas', 'audirem', 'indidem', 'plumatas', 'et'),\n", " ('audirem', 'indidem', 'plumatas', 'et', 'arbores'),\n", " ('indidem', 'plumatas', 'et', 'arbores', 'quae'),\n", " ('plumatas', 'et', 'arbores', 'quae', 'pomerium'),\n", " ('et', 'arbores', 'quae', 'pomerium', 'ambirent'),\n", " ('arbores', 'quae', 'pomerium', 'ambirent', 'similiter'),\n", " ('quae', 'pomerium', 'ambirent', 'similiter', 'foliatas'),\n", " ('pomerium', 'ambirent', 'similiter', 'foliatas', 'et'),\n", " ('ambirent', 'similiter', 'foliatas', 'et', 'fontanos'),\n", " ('similiter', 'foliatas', 'et', 'fontanos', 'latices'),\n", " ('foliatas', 'et', 'fontanos', 'latices', 'de'),\n", " ('et', 'fontanos', 'latices', 'de', 'corporibus'),\n", " ('fontanos', 'latices', 'de', 'corporibus', 'humanis'),\n", " ('latices', 'de', 'corporibus', 'humanis', 'fluxos'),\n", " ('de', 'corporibus', 'humanis', 'fluxos', 'crederem'),\n", " ('corporibus', 'humanis', 'fluxos', 'crederem', ';'),\n", " ('humanis', 'fluxos', 'crederem', ';', 'iam'),\n", " ('fluxos', 'crederem', ';', 'iam', 'statuas'),\n", " ('crederem', ';', 'iam', 'statuas', 'et'),\n", " (';', 'iam', 'statuas', 'et', 'imagines'),\n", " ('iam', 'statuas', 'et', 'imagines', 'incessuras'),\n", " ('statuas', 'et', 'imagines', 'incessuras', ','),\n", " ('et', 'imagines', 'incessuras', ',', 'parietes'),\n", " ('imagines', 'incessuras', ',', 'parietes', 'locuturos'),\n", " ('incessuras', ',', 'parietes', 'locuturos', ','),\n", " (',', 'parietes', 'locuturos', ',', 'boves'),\n", " ('parietes', 'locuturos', ',', 'boves', 'et'),\n", " ('locuturos', ',', 'boves', 'et', 'id'),\n", " (',', 'boves', 'et', 'id', 'genus'),\n", " ('boves', 'et', 'id', 'genus', 'pecua'),\n", " ('et', 'id', 'genus', 'pecua', 'dicturas'),\n", " ('id', 'genus', 'pecua', 'dicturas', 'praesagium'),\n", " ('genus', 'pecua', 'dicturas', 'praesagium', ','),\n", " ('pecua', 'dicturas', 'praesagium', ',', 'de'),\n", " ('dicturas', 'praesagium', ',', 'de', 'ipso'),\n", " ('praesagium', ',', 'de', 'ipso', 'vero'),\n", " (',', 'de', 'ipso', 'vero', 'caelo'),\n", " ('de', 'ipso', 'vero', 'caelo', 'et'),\n", " ('ipso', 'vero', 'caelo', 'et', 'iubaris'),\n", " ('vero', 'caelo', 'et', 'iubaris', 'orbe'),\n", " ('caelo', 'et', 'iubaris', 'orbe', 'subito'),\n", " ('et', 'iubaris', 'orbe', 'subito', 'venturum'),\n", " ('iubaris', 'orbe', 'subito', 'venturum', 'oraculum.')]" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "#using ngrams(n words at a time)\n", "\n", "five_gram = ngrams(tokens, 5)\n", "[x for x in five_gram]" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.4" } }, "nbformat": 4, "nbformat_minor": 2 }