{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Latent Semantic Indexing\n", "\n", "Here, we apply the technique *Latent Semantic Indexing* to capture the similarity of words. We are given a list of words and their frequencies in 9 documents, found on [GitHub](https://github.com/ppham27/MLaPP-solutions/blob/master/chap12/lsiDocuments.pdf)." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "
---|---|---|---|---|---|---|---|---|---|
000 | \n", "2 | \n", "0 | \n", "4 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
100 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
1913 | \n", "0 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
1977 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "
2001 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "
4 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
5 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
500 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
\" | \n", "0 | \n", "27 | \n", "13 | \n", "23 | \n", "19 | \n", "48 | \n", "56 | \n", "35 | \n", "22 | \n", "
( | \n", "4 | \n", "2 | \n", "3 | \n", "7 | \n", "4 | \n", "0 | \n", "5 | \n", "8 | \n", "4 | \n", "
) | \n", "4 | \n", "2 | \n", "3 | \n", "6 | \n", "4 | \n", "0 | \n", "5 | \n", "8 | \n", "4 | \n", "
* | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "
, | \n", "34 | \n", "30 | \n", "27 | \n", "83 | \n", "26 | \n", "74 | \n", "39 | \n", "49 | \n", "38 | \n", "
- | \n", "6 | \n", "0 | \n", "12 | \n", "2 | \n", "20 | \n", "5 | \n", "15 | \n", "16 | \n", "7 | \n", "
. | \n", "38 | \n", "41 | \n", "39 | \n", "41 | \n", "25 | \n", "36 | \n", "30 | \n", "31 | \n", "38 | \n", "
: | \n", "0 | \n", "0 | \n", "4 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "3 | \n", "2 | \n", "
; | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "3 | \n", "0 | \n", "
? | \n", "0 | \n", "4 | \n", "7 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "4 | \n", "
[ | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "
] | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "