{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Latent Semantic Indexing\n", "\n", "Here, we apply the technique *Latent Semantic Indexing* to capture the similarity of words. We are given a list of words and their frequencies in 9 documents, found on [GitHub](https://github.com/ppham27/MLaPP-solutions/blob/master/chap12/lsiDocuments.pdf)." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
| \n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "
|---|---|---|---|---|---|---|---|---|---|
| 000 | \n", "2 | \n", "0 | \n", "4 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 100 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 1913 | \n", "0 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 1977 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "
| 2001 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "
| 4 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 5 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 500 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| \" | \n", "0 | \n", "27 | \n", "13 | \n", "23 | \n", "19 | \n", "48 | \n", "56 | \n", "35 | \n", "22 | \n", "
| ( | \n", "4 | \n", "2 | \n", "3 | \n", "7 | \n", "4 | \n", "0 | \n", "5 | \n", "8 | \n", "4 | \n", "
| ) | \n", "4 | \n", "2 | \n", "3 | \n", "6 | \n", "4 | \n", "0 | \n", "5 | \n", "8 | \n", "4 | \n", "
| * | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "
| , | \n", "34 | \n", "30 | \n", "27 | \n", "83 | \n", "26 | \n", "74 | \n", "39 | \n", "49 | \n", "38 | \n", "
| - | \n", "6 | \n", "0 | \n", "12 | \n", "2 | \n", "20 | \n", "5 | \n", "15 | \n", "16 | \n", "7 | \n", "
| . | \n", "38 | \n", "41 | \n", "39 | \n", "41 | \n", "25 | \n", "36 | \n", "30 | \n", "31 | \n", "38 | \n", "
| : | \n", "0 | \n", "0 | \n", "4 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "3 | \n", "2 | \n", "
| ; | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "3 | \n", "0 | \n", "
| ? | \n", "0 | \n", "4 | \n", "7 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "4 | \n", "
| [ | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "
| ] | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "