{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Populating the interactive namespace from numpy and matplotlib\n" ] } ], "source": [ "%pylab inline\n", "\n", "from nltk.corpus import stopwords\n", "import wikipedia\n", "\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "from sklearn.decomposition import TruncatedSVD" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "figsize(10, 8)\n", "plt.style.use(['dark_background'])" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "stopw = stopwords.words(\"portuguese\") +\\\n", " stopwords.words(\"english\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## tf-idf" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "wikipedia.set_lang(\"pt\")\n", "text = wikipedia.page(\"Alan_Turing\").content" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(61, 664)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tfidf = TfidfVectorizer(stop_words=stopw)\n", "\n", "X = tfidf.fit_transform(text.splitlines())\n", "X.shape" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "<61x664 sparse matrix of type ''\n", "\twith 862 stored elements in Compressed Sparse Row format>" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "computação\n", "cheshire\n", "junho\n", "ciência\n", "influente\n", "algoritmo\n", "east\n", "lógico\n", "desenvolvimento\n", "desempenhando\n" ] } ], "source": [ "ft_name = tfidf.get_feature_names()\n", "\n", "top_10_tfidf_sklearn = X[0].transpose().toarray().argsort(axis=0)[::-1]\n", "for i in top_10_tfidf_sklearn[:10]:\n", " print(ft_name[i[0]])" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fig, ax = subplots(figsize=(10, 8))\n", "ax.matshow(X.todense())\n", "savefig(\"../images/lsa.png\", transparent=True)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(61, 664)" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X.shape" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "TruncatedSVD(algorithm='randomized', n_components=61, n_iter=1000,\n", " random_state=None, tol=0.0)" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "lsa = TruncatedSVD(n_components=61, n_iter=1000)\n", "\n", "lsa.fit(X)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(61, 664)" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "lsa.components_.shape" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'desenvolveu'" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "ft_name = tfidf.get_feature_names()\n", "ft_name[234]" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "paragrafo: 0\n", "turing\n", "máquina\n", "alan\n", "prêmio\n", "memorial\n", "guerra\n", "enigma\n", "bletchley\n", "park\n", "computação\n", "--------------------\n", "paragrafo: 1\n", "inglês\n", "isbn\n", "cambridge\n", "ed\n", "history\n", "massachusetts\n", "mit\n", "press\n", "262\n", "alan\n", "--------------------\n", "paragrafo: 2\n", "morte\n", "governo\n", "ministro\n", "pedido\n", "perdão\n", "anos\n", "cianeto\n", "britânico\n", "devido\n", "reino\n", "--------------------\n", "paragrafo: 3\n", "alan\n", "turing\n", "memorial\n", "prêmio\n", "pai\n", "genealogy\n", "mathematics\n", "project\n", "família\n", "havia\n", "--------------------\n", "paragrafo: 4\n", "computação\n", "ser\n", "poderia\n", "artificial\n", "sistema\n", "computabilidade\n", "respostas\n", "teórica\n", "fazer\n", "ciência\n", "--------------------\n", "paragrafo: 5\n", "morte\n", "pai\n", "índia\n", "família\n", "havia\n", "julius\n", "sido\n", "stoney\n", "trabalho\n", "maçã\n", "--------------------\n", "paragrafo: 6\n", "morte\n", "maçã\n", "cianeto\n", "alan\n", "bletchley\n", "park\n", "junho\n", "memorial\n", "1954\n", "meio\n", "--------------------\n", "paragrafo: 7\n", "inglês\n", "biografia\n", "mactutor\n", "genealogy\n", "mathematics\n", "project\n", "bletchley\n", "park\n", "pai\n", "família\n", "--------------------\n", "paragrafo: 8\n", "química\n", "onde\n", "inglês\n", "biografia\n", "mactutor\n", "laboratório\n", "base\n", "sobre\n", "prêmio\n", "interpretado\n", "--------------------\n", "paragrafo: 9\n", "prêmio\n", "máquina\n", "turing\n", "dados\n", "estados\n", "segura\n", "transatlânticos\n", "transmissão\n", "unidos\n", "projeto\n", "--------------------\n", "paragrafo: 10\n", "forma\n", "dados\n", "estados\n", "segura\n", "transatlânticos\n", "transmissão\n", "unidos\n", "projeto\n", "bletchley\n", "park\n", "--------------------\n", "paragrafo: 11\n", "referências\n", "ver\n", "homofobia\n", "bibliografia\n", "cinebiografias\n", "marian\n", "rejewski\n", "1947\n", "morte\n", "memorial\n", "--------------------\n", "paragrafo: 12\n", "homofobia\n", "dedicação\n", "externas\n", "ligações\n", "ver\n", "desculpa\n", "oficiais\n", "pedidos\n", "referências\n", "marian\n", "--------------------\n", "paragrafo: 13\n", "ver\n", "dedicação\n", "externas\n", "ligações\n", "cinebiografias\n", "bibliografia\n", "consagração\n", "marian\n", "rejewski\n", "alan\n", "--------------------\n", "paragrafo: 14\n", "cinebiografias\n", "ver\n", "carreira\n", "juventude\n", "homofobia\n", "marian\n", "rejewski\n", "externas\n", "ligações\n", "desculpa\n", "--------------------\n", "paragrafo: 15\n", "consagração\n", "homofobia\n", "ver\n", "marian\n", "rejewski\n", "cinebiografias\n", "bibliografia\n", "biografia\n", "mactutor\n", "inglês\n", "--------------------\n", "paragrafo: 16\n", "dedicação\n", "carreira\n", "juventude\n", "homofobia\n", "referências\n", "bibliografia\n", "externas\n", "ligações\n", "consagração\n", "máquina\n", "--------------------\n", "paragrafo: 17\n", "bibliografia\n", "desculpa\n", "oficiais\n", "pedidos\n", "marian\n", "rejewski\n", "homofobia\n", "externas\n", "ligações\n", "ver\n", "--------------------\n", "paragrafo: 18\n", "referências\n", "marian\n", "rejewski\n", "cinebiografias\n", "consagração\n", "externas\n", "ligações\n", "desculpa\n", "oficiais\n", "pedidos\n", "--------------------\n", "paragrafo: 19\n", "marian\n", "rejewski\n", "dedicação\n", "ver\n", "carreira\n", "juventude\n", "desculpa\n", "oficiais\n", "pedidos\n", "prêmio\n", "--------------------\n", "paragrafo: 20\n", "cinebiografias\n", "dedicação\n", "desculpa\n", "oficiais\n", "pedidos\n", "homofobia\n", "bibliografia\n", "forma\n", "dados\n", "estados\n", "--------------------\n", "paragrafo: 21\n", "desculpa\n", "oficiais\n", "pedidos\n", "referências\n", "consagração\n", "ver\n", "carreira\n", "juventude\n", "dedicação\n", "1954\n", "--------------------\n", "paragrafo: 22\n", "junho\n", "bletchley\n", "park\n", "computação\n", "1954\n", "cheshire\n", "meio\n", "dados\n", "estados\n", "segura\n", "--------------------\n", "paragrafo: 23\n", "prêmio\n", "morte\n", "máquina\n", "1950\n", "computadores\n", "condenado\n", "crescer\n", "declarado\n", "equivalia\n", "estrogênio\n", "--------------------\n", "paragrafo: 24\n", "morte\n", "7538\n", "2200\n", "david\n", "invention\n", "knew\n", "leavitt\n", "man\n", "much\n", "phoenix\n", "--------------------\n", "paragrafo: 25\n", "interpretado\n", "prêmio\n", "castração\n", "1996\n", "2014\n", "alex\n", "além\n", "ator\n", "benedict\n", "breaking\n", "--------------------\n", "paragrafo: 26\n", "prêmio\n", "bletchley\n", "park\n", "memorial\n", "laboratório\n", "turing\n", "ser\n", "comprovados\n", "dedicava\n", "formado\n", "--------------------\n", "paragrafo: 27\n", "morte\n", "memorial\n", "computação\n", "alan\n", "londres\n", "genealogy\n", "mathematics\n", "project\n", "ciência\n", "mathison\n", "--------------------\n", "paragrafo: 28\n", "memorial\n", "alan\n", "genealogy\n", "mathematics\n", "project\n", "pode\n", "mãe\n", "acidental\n", "cena\n", "conduzida\n", "--------------------\n", "paragrafo: 29\n", "computação\n", "biografia\n", "mactutor\n", "prêmio\n", "ciência\n", "mathison\n", "bletchley\n", "park\n", "londres\n", "stoney\n", "--------------------\n", "paragrafo: 30\n", "bletchley\n", "park\n", "sistema\n", "sistemas\n", "artificial\n", "filhos\n", "inglaterra\n", "john\n", "pode\n", "computador\n", "--------------------\n", "paragrafo: 31\n", "sistema\n", "sistemas\n", "stoney\n", "ser\n", "prêmio\n", "formal\n", "operador\n", "símbolos\n", "meio\n", "artificial\n", "--------------------\n", "paragrafo: 32\n", "genealogy\n", "mathematics\n", "project\n", "prêmio\n", "inglês\n", "códigos\n", "eletromecânica\n", "inteligência\n", "chefe\n", "centro\n", "--------------------\n", "paragrafo: 33\n", "memorial\n", "códigos\n", "eletromecânica\n", "prêmio\n", "alemães\n", "centro\n", "definições\n", "encontrar\n", "especializado\n", "frota\n", "--------------------\n", "paragrafo: 34\n", "homossexualidade\n", "aceitou\n", "1952\n", "algumas\n", "alguns\n", "alternativa\n", "aniversário\n", "antes\n", "aparente\n", "apesar\n", "--------------------\n", "paragrafo: 35\n", "máquina\n", "bletchley\n", "park\n", "turing\n", "química\n", "04\n", "1983\n", "books\n", "burnett\n", "intelligence\n", "--------------------\n", "paragrafo: 36\n", "01202\n", "agar\n", "government\n", "jon\n", "machine\n", "revolutionary\n", "2003\n", "978\n", "computer\n", "computação\n", "--------------------\n", "paragrafo: 37\n", "ainda\n", "acidental\n", "55\n", "alemães\n", "53169\n", "afirmado\n", "42\n", "510060\n", "01202\n", "2003\n", "--------------------\n", "paragrafo: 38\n", "53169\n", "afirma\n", "510060\n", "2003\n", "42\n", "acompanhar\n", "1996\n", "alemã\n", "abstração\n", "12º\n", "--------------------\n", "paragrafo: 39\n", "acidental\n", "55\n", "53169\n", "aceitou\n", "agar\n", "afirmado\n", "afirma\n", "510060\n", "04\n", "7538\n", "--------------------\n", "paragrafo: 40\n", "afirma\n", "ace\n", "acidentes\n", "55\n", "01202\n", "978\n", "memorial\n", "000\n", "1912\n", "1881\n", "--------------------\n", "paragrafo: 41\n", "ainda\n", "agar\n", "55\n", "aceitou\n", "1912\n", "alemanha\n", "24\n", "7538\n", "memorial\n", "000\n", "--------------------\n", "paragrafo: 42\n", "acidentes\n", "acidental\n", "55\n", "alegre\n", "978\n", "alan\n", "12\n", "ajudou\n", "12º\n", "01202\n", "--------------------\n", "paragrafo: 43\n", "aceitou\n", "ace\n", "acidental\n", "alan\n", "262\n", "acompanhar\n", "42\n", "alemães\n", "2009\n", "12\n", "--------------------\n", "paragrafo: 44\n", "55\n", "978\n", "alemães\n", "7538\n", "alan\n", "alemã\n", "afirmativo\n", "1998\n", "alemanha\n", "acompanhar\n", "--------------------\n", "paragrafo: 45\n", "55\n", "alemães\n", "alan\n", "alegre\n", "agar\n", "afirma\n", "abstração\n", "ajudaria\n", "2009\n", "2007\n", "--------------------\n", "paragrafo: 46\n", "afirmado\n", "55\n", "alemã\n", "acompanhar\n", "01202\n", "afirmativo\n", "acordo\n", "isbn\n", "alan\n", "2003\n", "--------------------\n", "paragrafo: 47\n", "alegre\n", "aceitou\n", "ajudaria\n", "978\n", "afirmado\n", "alemanha\n", "1998\n", "abstração\n", "55\n", "42\n", "--------------------\n", "paragrafo: 48\n", "aceitou\n", "acidentes\n", "ainda\n", "alemães\n", "55\n", "alemanha\n", "afirmado\n", "7538\n", "01202\n", "afirmativo\n", "--------------------\n", "paragrafo: 49\n", "978\n", "aceitou\n", "ainda\n", "53169\n", "agar\n", "acompanhar\n", "ajudou\n", "2007\n", "1912\n", "55\n", "--------------------\n", "paragrafo: 50\n", "aceitou\n", "ajudaria\n", "acompanhar\n", "alemã\n", "978\n", "37\n", "afirmado\n", "ainda\n", "7538\n", "000\n", "--------------------\n", "paragrafo: 51\n", "acordo\n", "acompanhar\n", "ajudou\n", "alemanha\n", "24\n", "ajudaria\n", "7538\n", "1983\n", "1996\n", "2200\n", "--------------------\n", "paragrafo: 52\n", "abstração\n", "acordo\n", "alemã\n", "ajudaria\n", "aceitou\n", "afirmado\n", "978\n", "55\n", "11\n", "ajudou\n", "--------------------\n", "paragrafo: 53\n", "alemã\n", "alemanha\n", "acompanhar\n", "ajudaria\n", "alegre\n", "acidentes\n", "2014\n", "2200\n", "510060\n", "aceitou\n", "--------------------\n", "paragrafo: 54\n", "ajudaria\n", "acidentes\n", "alemã\n", "ajudou\n", "510060\n", "afirma\n", "1912\n", "2200\n", "12º\n", "aceitou\n", "--------------------\n", "paragrafo: 55\n", "alegre\n", "ajudou\n", "alemã\n", "acordo\n", "afirmativo\n", "ajudaria\n", "aceitou\n", "acompanhar\n", "510060\n", "ace\n", "--------------------\n", "paragrafo: 56\n", "alemã\n", "acordo\n", "alegre\n", "alemanha\n", "acidentes\n", "510060\n", "afirma\n", "37\n", "12º\n", "2007\n", "--------------------\n", "paragrafo: 57\n", "ajudaria\n", "afirmativo\n", "acompanhar\n", "alemanha\n", "acordo\n", "alegre\n", "acidentes\n", "1996\n", "24\n", "510060\n", "--------------------\n", "paragrafo: 58\n", "alan\n", "ainda\n", "510060\n", "afirma\n", "10\n", "978\n", "afirmado\n", "acidentes\n", "12\n", "12º\n", "--------------------\n", "paragrafo: 59\n", "510060\n", "ace\n", "55\n", "53169\n", "memorial\n", "01202\n", "alemanha\n", "7538\n", "000\n", "24\n", "--------------------\n", "paragrafo: 60\n", "510060\n", "alemães\n", "acidental\n", "afirma\n", "aceitou\n", "978\n", "55\n", "ceruzzi\n", "computing\n", "modern\n", "--------------------\n" ] } ], "source": [ "for i, comp in enumerate(lsa.components_):\n", " terms_in_comp = zip(ft_name, comp)\n", " sorted_terms = sorted(terms_in_comp, key=lambda x: x[1], reverse=True)[:10]\n", " print(f\"paragrafo: {i}\")\n", " for t in sorted_terms:\n", " print(t[0])\n", " print(\"-\"*20)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.1" } }, "nbformat": 4, "nbformat_minor": 2 }