## N-grams

An n-gram is a contiguous sequence of n items from a given sample of text or speech. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram". Larger sizes are sometimes referred to by the value of n in modern language, e.g., "four-gram", "five-gram", and so on.

In [1]:
#import necessary modules

from nltk.tokenize.punkt import PunktLanguageVars
from nltk.util import bigrams
from nltk.util import trigrams
from nltk.util import ngrams

In [2]:
#declaring sentence and tokenizing it

s = 'Ut primum nocte discussa sol novus diem fecit, et somno simul emersus et lectulo, anxius alioquin et nimis cupidus cognoscendi quae rara miraque sunt, reputansque me media Thessaliae loca tenere qua artis magicae nativa cantamina totius orbis consono orbe celebrentur fabulamque illam optimi comitis Aristomenis de situ civitatis huius exortam, suspensus alioquin et voto simul et studio, curiose singula considerabam. Nec fuit in illa civitate quod aspiciens id esse crederem quod esset, sed omnia prorsus ferali murmure in aliam effigiem translata, ut et lapides quos offenderem de homine duratos et aves quas audirem indidem plumatas et arbores quae pomerium ambirent similiter foliatas et fontanos latices de corporibus humanis fluxos crederem; iam statuas et imagines incessuras, parietes locuturos, boves et id genus pecua dicturas praesagium, de ipso vero caelo et iubaris orbe subito venturum oraculum.'.lower()
p = PunktLanguageVars()
tokens = p.word_tokenize(s)

In [3]:
#using bigrams(2 words at a time)

b = bigrams(tokens)
[x for x in b]

[('ut', 'primum'),
 ('primum', 'nocte'),
 ('nocte', 'discussa'),
 ('discussa', 'sol'),
 ('sol', 'novus'),
 ('novus', 'diem'),
 ('diem', 'fecit'),
 ('fecit', ','),
 (',', 'et'),
 ('et', 'somno'),
 ('somno', 'simul'),
 ('simul', 'emersus'),
 ('emersus', 'et'),
 ('et', 'lectulo'),
 ('lectulo', ','),
 (',', 'anxius'),
 ('anxius', 'alioquin'),
 ('alioquin', 'et'),
 ('et', 'nimis'),
 ('nimis', 'cupidus'),
 ('cupidus', 'cognoscendi'),
 ('cognoscendi', 'quae'),
 ('quae', 'rara'),
 ('rara', 'miraque'),
 ('miraque', 'sunt'),
 ('sunt', ','),
 (',', 'reputansque'),
 ('reputansque', 'me'),
 ('me', 'media'),
 ('media', 'thessaliae'),
 ('thessaliae', 'loca'),
 ('loca', 'tenere'),
 ('tenere', 'qua'),
 ('qua', 'artis'),
 ('artis', 'magicae'),
 ('magicae', 'nativa'),
 ('nativa', 'cantamina'),
 ('cantamina', 'totius'),
 ('totius', 'orbis'),
 ('orbis', 'consono'),
 ('consono', 'orbe'),
 ('orbe', 'celebrentur'),
 ('celebrentur', 'fabulamque'),
 ('fabulamque', 'illam'),
 ('illam', 'optimi'),
 ('optimi', 'co

In [4]:
#using trigrams(3 words at a time)

t = trigrams(tokens)
[x for x in t]

[('ut', 'primum', 'nocte'),
 ('primum', 'nocte', 'discussa'),
 ('nocte', 'discussa', 'sol'),
 ('discussa', 'sol', 'novus'),
 ('sol', 'novus', 'diem'),
 ('novus', 'diem', 'fecit'),
 ('diem', 'fecit', ','),
 ('fecit', ',', 'et'),
 (',', 'et', 'somno'),
 ('et', 'somno', 'simul'),
 ('somno', 'simul', 'emersus'),
 ('simul', 'emersus', 'et'),
 ('emersus', 'et', 'lectulo'),
 ('et', 'lectulo', ','),
 ('lectulo', ',', 'anxius'),
 (',', 'anxius', 'alioquin'),
 ('anxius', 'alioquin', 'et'),
 ('alioquin', 'et', 'nimis'),
 ('et', 'nimis', 'cupidus'),
 ('nimis', 'cupidus', 'cognoscendi'),
 ('cupidus', 'cognoscendi', 'quae'),
 ('cognoscendi', 'quae', 'rara'),
 ('quae', 'rara', 'miraque'),
 ('rara', 'miraque', 'sunt'),
 ('miraque', 'sunt', ','),
 ('sunt', ',', 'reputansque'),
 (',', 'reputansque', 'me'),
 ('reputansque', 'me', 'media'),
 ('me', 'media', 'thessaliae'),
 ('media', 'thessaliae', 'loca'),
 ('thessaliae', 'loca', 'tenere'),
 ('loca', 'tenere', 'qua'),
 ('tenere', 'qua', 'artis'),
 ('qua', 

In [5]:
#using ngrams(n words at a time)

five_gram = ngrams(tokens, 5)
[x for x in five_gram]

[('ut', 'primum', 'nocte', 'discussa', 'sol'),
 ('primum', 'nocte', 'discussa', 'sol', 'novus'),
 ('nocte', 'discussa', 'sol', 'novus', 'diem'),
 ('discussa', 'sol', 'novus', 'diem', 'fecit'),
 ('sol', 'novus', 'diem', 'fecit', ','),
 ('novus', 'diem', 'fecit', ',', 'et'),
 ('diem', 'fecit', ',', 'et', 'somno'),
 ('fecit', ',', 'et', 'somno', 'simul'),
 (',', 'et', 'somno', 'simul', 'emersus'),
 ('et', 'somno', 'simul', 'emersus', 'et'),
 ('somno', 'simul', 'emersus', 'et', 'lectulo'),
 ('simul', 'emersus', 'et', 'lectulo', ','),
 ('emersus', 'et', 'lectulo', ',', 'anxius'),
 ('et', 'lectulo', ',', 'anxius', 'alioquin'),
 ('lectulo', ',', 'anxius', 'alioquin', 'et'),
 (',', 'anxius', 'alioquin', 'et', 'nimis'),
 ('anxius', 'alioquin', 'et', 'nimis', 'cupidus'),
 ('alioquin', 'et', 'nimis', 'cupidus', 'cognoscendi'),
 ('et', 'nimis', 'cupidus', 'cognoscendi', 'quae'),
 ('nimis', 'cupidus', 'cognoscendi', 'quae', 'rara'),
 ('cupidus', 'cognoscendi', 'quae', 'rara', 'miraque'),
 ('cognosc