{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "name": "small_sent_analysis.ipynb", "provenance": [], "collapsed_sections": [], "machine_shape": "hm", "include_colab_link": true }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "accelerator": "GPU" }, "cells": [ { "cell_type": "markdown", "metadata": { "id": "view-in-github", "colab_type": "text" }, "source": [ "\"Open" ] }, { "cell_type": "markdown", "metadata": { "id": "hqrbjC8slEbB", "colab_type": "text" }, "source": [ "## ছোট্ট একটা সেন্টিমেন্ট অ্যানালাইসিস\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "id": "f-CTYZ3cdska", "colab_type": "text" }, "source": [ "আমরা প্রায় বইয়ের শেষ পর্যায়ে চলে এসেছি। বাকি আছে দুটো মডেল সামনে। দুটোই সেন্টিমেন্ট অ্যানালাইসিসের ওপর। প্রথমটা একটা বেসিক মডেল, যেটা যে কেউ বুঝতে পারবেন। খুব সহজভাবে উপস্থাপন করা হয়েছে যেটা আগের সব শেখা বিষয়গুলোর কিছুটা কম্পাইলেশন। একদম ছোট একটা ডাটাসেট দিয়ে তৈরি করা, যা সহজেই ভেতরের কম্প্লেক্সিটি বুঝতে সাহায্য করবে। তবে শুরুতেই সেন্টিমেন্ট অ্যানালাইসিস কি আর কেনই বা এটা নিয়ে এতো তোলপাড়?\n", "\n", "কিছুদিন আগ পর্যন্ত একটা ব্র্যান্ডের ভ্যালুয়েশন নির্ভর করত তার ব্যাপারে মানুষজন একে অপরকে কি বলছে? আমরা যাকে বলছি ‘ওয়ার্ড অফ মাউথ’। আমরা একটা জিনিস কেনার আগে বন্ধুবান্ধবকে জিজ্ঞাসা করে কিনতাম। অথবা ওই জিনিসটার ওপর পেপারে যদি কেউ লেখালিখি করে সেটার ওপর ভিত্তি করে একটা সিদ্ধান্ত নিয়ে ফেলতাম। কোম্পানিগুলো বড় বড় সেলিব্রেটিকে ব্যবহার করত তাদের প্রোডাক্টের অ্যাডভার্টাইজমেন্ট এ। খেয়াল আছে পিয়ারসনের কথা? ছোটবেলার টিভিতে ওই ব্র্যান্ডগুলোর জিংগেল এখনো মনে আছে।\n", "\n", "এখন কি করি? একটা প্রোডাক্ট কেনার আগে ইন্টারনেটে দেখি তার ব্যাপারে ‘রিভিউ’ কেমন? বিশেষ করে প্রতিটা প্রোডাক্টের সাথে ‘ইউজার রিভিউ’ একটা বিশাল জিনিস। এতে বেড়েছে ট্রান্সপারেন্সি। একটা বাজে জিনিস গুছিয়ে দিয়ে পার পাবেনা কোম্পানি। একজন ব্যবহারকারী হিসেবে যেভাবে আমরা একটা প্রোডাক্ট নিয়ে ইন্টারনেটে রিসার্চ করি, সে ধরনের কাছাকাছি রিসার্চ করে থাকে বর্তমান কোম্পানিগুলো। তার প্রোডাক্টগুলো বাজারে কেমন চলছে, পাশাপাশি সেগুলোর ব্যাপারে ব্যবহারকারীরা কি বলছেন অথবা সামনের প্রোডাক্টে কি ধরনের ‘রিভিশন’ বা মডিফিকেশন আসতে পারে সেগুলোর ইনপুট আসবে ইন্টারনেটের বিভিন্ন রিভিউ থেকে। তবে সেটা সমস্যা হয়ে দাঁড়ায় যখন কোম্পানিটি তার ব্র্যান্ডের সোশ্যাল সেন্টিমেন্ট নিয়ে কাজ শুরু করেন। এত মানুষ, হাজারো কমেন্ট, অনেক ধরনের রিঅ্যাকশন এই সবকিছুকে প্রসেস করতে গেলে সেই রিসোর্স ম্যানেজ করবে কে? সেখানে চলে এসেছে ডিপ লার্নিং। মানুষের মনের খবর জানতে সেন্টিমেন্ট অ্যানালাইসিস এর নতুন জগৎ।\n", "\n", "আমরা যখন একটা ব্যাপারে প্রচুর তথ্য পাই, তখন সেগুলোকে অ্যানালাইসিস করার জন্য আমাদেরকে ‘লাইন বাই লাইন’ পড়তে হবে। আর এখন যেভাবে সোশ্যাল মিডিয়া, ব্লগ, হাজারো ইলেকট্রনিক পাবলিকেশন মিনিটে অগুনিত ইউজার জেনারেটেড কনটেন্ট তৈরি করছে, সেখানে ডিপ লার্নিং ছাড়া এই ধরনের ডাটা প্রসেস করা দুষ্কর। শুধুমাত্র ডাটা প্রসেসিং নয় - এর মধ্যে টেক্সটগুলোর কন্টেক্সটুয়াল মাইনিং থেকে কোন তথ্যটি দরকার আর কোন তথ্যটি নয়, সেটা জানতে ডিপ লার্নিংকে বুঝতে হবে কিভাবে মানুষ তার মনের ভাব প্রকাশ করে। কে কি শব্দ বলল, শব্দটা বাক্যের কোথায় আছে, আগের এবং পরের বাক্যের সাথে এর সংযোগ/সিমিলারিটি কতটুকু সেটা বের করতে সেন্টিমেন্ট অ্যানালাইসিস বিশাল কাজ করে।\n", "\n", "শুধুমাত্র কোম্পানিগুলো নয়, এখন অনেক দেশ তাদের জনগণের যেকোন বিষয়ে মনোভাব বোঝার জন্য এই সেন্টিমেন্ট অ্যানালাইসিস ব্যবহার করে থাকে। সরকারের প্রচুর সেবা যেহেতু জনগণের জন্য টার্গেট করে তৈরি করা, সেখানে সরকার তো জানতে চাইতেই পারেন - তাদের সার্ভিস ডেলিভারী প্লাটফর্মগুলো কিভাবে কাজ করছে, কেমন পারফর্ম করছে? সেন্টিমেন্ট অ্যানালাইসিস কিছু ধারনা আগে পেয়েছি আগের চ্যাপ্টারে। তবে সেটার আরো ভালো ধারণা নেবার চেষ্টা করব নিচের কোড থেকে। \n", "\n", "সাধারণ ‘টেক্সট’ থেকে মানুষের মতো করে বোঝার সিস্টেম চলে এসেছে এখন। সেখানে সেন্টিমেন্ট অ্যানালাইসিসে যেকোনো একটা টেক্সট থেকে সেই ব্যাপারটা ‘পজিটিভ’ না ‘নেগেটিভ’ নাকি একেবারে ‘নিউট্রাল’ - সেটার একটা ধারণা দিতে পারে এই জিনিস। এর পাশাপাশি চলে এসেছে ‘ইনটেন্ট অ্যানালাইসিস’ যেটা আসলে সেন্টিমেন্ট অ্যানালাইসিসের আরেক ধাপ ওপরে - যা ওই টেক্সট থেকে ব্যবহারকারীর ‘ইনটেনশন’ মনোভাব নিয়ে একটা প্রেডিকশন দিতে পারে। ওই টেক্সট থেকে বলে দিতে পারে উনি এরপর কি করতে পারেন।\n", "\n", "শুরুতেই ডেটা প্রি-প্রসেসিং। আর, একটা ছোট্ট ডাটাসেট। অ্যাক্যুরেসি ইম্পর্ট্যান্ট কিছু নয়, ফ্রেমওয়ার্কটা বুঝেলেই হবে।" ] }, { "cell_type": "code", "metadata": { "id": "HdpW5GsyquyK", "colab_type": "code", "outputId": "221f8ec1-7b40-48cb-e12a-482e3b71fd3f", "colab": { "base_uri": "https://localhost:8080/", "height": 34 } }, "source": [ "try:\n", " # শুধুমাত্র টেন্সর-ফ্লো ২.x ব্যবহার করবো \n", " %tensorflow_version 2.x\n", "except Exception:\n", " pass\n", "\n", "import tensorflow as tf\n", "keras = tf.keras" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "TensorFlow 2.x selected.\n" ], "name": "stdout" } ] }, { "cell_type": "code", "metadata": { "id": "5a8NwbxoqbYi", "colab_type": "code", "colab": {} }, "source": [ "# বাড়তি ওয়ার্নিং ফেলে দিচ্ছি, আপনাদের কাজের সময় লাগবে না \n", "import warnings\n", "warnings.filterwarnings(\"ignore\")" ], "execution_count": 0, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "b_uejXCRh2NC", "colab_type": "text" }, "source": [ "## ডেটা প্রি-প্রসেসিং" ] }, { "cell_type": "code", "metadata": { "id": "jeun9eX-hwxc", "colab_type": "code", "colab": {} }, "source": [ "# আমরা কিছু লাইব্রেরি যোগ করে নিচ্ছি \n", "import gensim, re\n", "import numpy as np\n", "import pandas as pd\n", "\n", "# একটা ডেটা ডিকশনারি বানাই, আমাদের পছন্দ মতো বাক্য \n", "\n", "data = ['আমি মেশিন লার্নিং শিখতে পছন্দ করি',\n", " 'আমার বই পড়তে ভালো লাগে না',\n", " 'পাইথন শিখতে কষ্ট',\n", " 'এই বইটা বেশ ভালো লাগছে',\n", " 'আমার ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং পছন্দ']\n", "\n", "labels = ['positive', 'negative', 'negative', 'positive', 'positive']\n", "\n", "# আমাদের ডেটাকে কিছুটা প্রি-প্রসেস করি, বাংলা ইউনিকোড রেঞ্জের বাইরে সবকিছু ফেলে দিচ্ছি \n", "\n", "text = [re.sub(r'[^\\u0980-\\u09FF ]+', '', sentence) for sentence in data]" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "jGjtt-73SFL2", "colab_type": "code", "outputId": "7a70b28b-3d55-4f47-cfd0-66be64dd397f", "colab": { "base_uri": "https://localhost:8080/", "height": 105 } }, "source": [ "# দেখি সে কি দেখায়?\n", "text" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['আমি মেশিন লার্নিং শিখতে পছন্দ করি',\n", " 'আমার বই পড়তে ভালো লাগে না',\n", " 'পাইথন শিখতে কষ্ট',\n", " 'এই বইটা বেশ ভালো লাগছে',\n", " 'আমার ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং পছন্দ']" ] }, "metadata": { "tags": [] }, "execution_count": 3 } ] }, { "cell_type": "markdown", "metadata": { "id": "nKMotPUziPWW", "colab_type": "text" }, "source": [ "## টোকেনাইজার" ] }, { "cell_type": "code", "metadata": { "id": "wIxMgUi_iR0Q", "colab_type": "code", "colab": {} }, "source": [ "# আরো কিছু লাইব্রেরি যোগ করি \n", "from sklearn.model_selection import train_test_split\n", "from tensorflow.keras.preprocessing.text import Tokenizer\n", "from tensorflow.keras.preprocessing.sequence import pad_sequences\n", "\n", "# আমাদের টোকেনাইজার কতগুলো ফিচার এক্সট্র্যাক্ট করবে?\n", "features = 500\n", "tokenizer = Tokenizer(num_words = features)\n", "\n", "# আমাদের টোকেনাইজারকে পুরো টেক্সটে ফিট করতে হবে \n", "tokenizer.fit_on_texts(text)\n", "\n", "# আমাদের টোকেনাইজার চেনে সেরকম শব্দ নিয়ে আসতে হবে \n", "word_index = tokenizer.word_index\n", "\n", "# ম্যাট্রিক্স এর মধ্যে টোকেনকে ফেলি \n", "X = tokenizer.texts_to_sequences(text)\n", "X = pad_sequences(X)\n", "\n", "# লেবেল তৈরি করি \n", "y = np.asarray(pd.get_dummies(labels))" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "mb8G1_fv0yri", "colab_type": "code", "outputId": "6d6dec7c-39f5-48f9-c420-3c1810d1a3b4", "colab": { "base_uri": "https://localhost:8080/", "height": 197 } }, "source": [ "# লেবেল দেখি কি আছে ভেতরে?\n", "\n", "pd.get_dummies(labels)" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
negativepositive
001
110
210
301
401
\n", "
" ], "text/plain": [ " negative positive\n", "0 0 1\n", "1 1 0\n", "2 1 0\n", "3 0 1\n", "4 0 1" ] }, "metadata": { "tags": [] }, "execution_count": 5 } ] }, { "cell_type": "code", "metadata": { "id": "NNpue4lWcnlT", "colab_type": "code", "colab": {} }, "source": [ "# ট্রেইন এবং টেস্ট ডেটাসেটকে আলাদা করি \n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, shuffle=False)" ], "execution_count": 0, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "Rbm4l1jNiDPe", "colab_type": "text" }, "source": [ "## ওয়ার্ড২ভেক\n", "\n", "এখানে আমরা দুটো এপ্রোচ নিয়েছি, একটা ছোট ডেটাসেট, আরেকটা একটু বড় বাংলা উইকি থেকে নেয়া। " ] }, { "cell_type": "code", "metadata": { "id": "ZddpDaYOuhjV", "colab_type": "code", "outputId": "5fcb6ec2-e52d-4c5e-f741-4bc320fd9e6f", "colab": { "base_uri": "https://localhost:8080/", "height": 247 } }, "source": [ "# আগেও ব্যবহার করেছিলাম \n", "\n", "!wget https://raw.githubusercontent.com/raqueeb/datasets/master/bnwiki-texts.zip\n", "!unzip bnwiki-texts.zip\n", "preprocessed_text_file_path = 'bnwiki-texts-preprocessed.txt'\n", "\n", "lines_from_file = []\n", "with open(preprocessed_text_file_path, encoding='utf8') as text_file:\n", " for line in text_file:\n", " lines_from_file.append(line)\n", " \n", "tokenized_lines = []\n", "for single_line in lines_from_file:\n", " tokenized_lines.append(single_line.split())" ], "execution_count": 2, "outputs": [ { "output_type": "stream", "text": [ "--2019-11-08 14:44:19-- https://raw.githubusercontent.com/raqueeb/datasets/master/bnwiki-texts.zip\n", "Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...\n", "Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.\n", "HTTP request sent, awaiting response... 200 OK\n", "Length: 61696513 (59M) [application/zip]\n", "Saving to: ‘bnwiki-texts.zip’\n", "\n", "bnwiki-texts.zip 100%[===================>] 58.84M 176MB/s in 0.3s \n", "\n", "2019-11-08 14:44:19 (176 MB/s) - ‘bnwiki-texts.zip’ saved [61696513/61696513]\n", "\n", "Archive: bnwiki-texts.zip\n", " inflating: bnwiki-texts-preprocessed.txt \n" ], "name": "stdout" } ] }, { "cell_type": "code", "metadata": { "id": "iD9oaDuGiA02", "colab_type": "code", "colab": {} }, "source": [ "# ওয়ার্ড২ভেককে ট্রেইন করি আমাদের দু ধরণের ডেটা দিয়ে, টেস্ট করি দুটো দিয়ে দুবার - আলাদা করে \n", "# একটু সময় লাগবে \n", "word_model = gensim.models.Word2Vec(tokenized_lines, size=300, min_count=1, iter=10)\n", "# word_model = gensim.models.Word2Vec(text, size=300, min_count=1, iter=10)" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "_fyaI4MviIPy", "colab_type": "code", "outputId": "1c2bffa1-922d-4501-f472-18a24c86fe08", "colab": { "base_uri": "https://localhost:8080/", "height": 250 } }, "source": [ "# টেস্ট করি ওয়ার্ড২ভেক কাজ করে কিনা \n", "word_model.wv.most_similar(positive='আমি')" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "/usr/local/lib/python3.6/dist-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.\n", " if np.issubdtype(vec.dtype, np.int):\n" ], "name": "stderr" }, { "output_type": "execute_result", "data": { "text/plain": [ "[('আমরা', 0.7259500026702881),\n", " ('তুমি', 0.6985121965408325),\n", " ('আপনি', 0.6706202030181885),\n", " ('আমার', 0.669513463973999),\n", " ('তোমরা', 0.66762375831604),\n", " ('তোমার', 0.6606091856956482),\n", " ('আমাকে', 0.6351409554481506),\n", " ('তোমাকে', 0.6340588331222534),\n", " ('আপনাকে', 0.6301310658454895),\n", " ('আপনারা', 0.5874826312065125)]" ] }, "metadata": { "tags": [] }, "execution_count": 9 } ] }, { "cell_type": "code", "metadata": { "id": "9bP1yWd_iIwk", "colab_type": "code", "colab": {} }, "source": [ "# নতুন ম্যাট্রিক্সে সেভ করি ভেক্টরগুলোকে \n", "embedding_matrix = np.zeros((len(word_model.wv.vocab) + 1, 300))\n", "for i, vec in enumerate(word_model.wv.vectors):\n", " embedding_matrix[i] = vec" ], "execution_count": 0, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "pO-4C5r5jiS1", "colab_type": "text" }, "source": [ "## তৈরি করি মডেল" ] }, { "cell_type": "code", "metadata": { "id": "EaI3lLJFjdA2", "colab_type": "code", "outputId": "d3cab2a8-0eb9-495a-bf63-92e727229ea1", "colab": { "base_uri": "https://localhost:8080/", "height": 265 } }, "source": [ "from tensorflow.keras.models import Sequential\n", "from tensorflow.keras.layers import LSTM, Dense, Embedding\n", "\n", "# লেয়ারকে ইনিশিয়ালাইজ করি, অবশ্যই সিকোয়েন্সিয়াল মডেল \n", "model = Sequential()\n", "# শব্দ ভেক্টরকে এমবেড করি \n", "model.add(Embedding(len(word_model.wv.vocab)+1, 300, input_length=X.shape[1], weights=[embedding_matrix], trainable=False))\n", "# ডেটার মধ্যে কো-রিলেশন বোঝার চেষ্টা করতে দেই মডেলকে \n", "model.add(LSTM(300,return_sequences=False))\n", "model.add(Dense(y.shape[1],activation=\"softmax\"))\n", "# মডেলের কাঠামো দেখি \n", "model.summary()" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "Model: \"sequential\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "embedding (Embedding) (None, 6, 300) 200881800 \n", "_________________________________________________________________\n", "lstm (LSTM) (None, 300) 721200 \n", "_________________________________________________________________\n", "dense (Dense) (None, 2) 602 \n", "=================================================================\n", "Total params: 201,603,602\n", "Trainable params: 721,802\n", "Non-trainable params: 200,881,800\n", "_________________________________________________________________\n" ], "name": "stdout" } ] }, { "cell_type": "code", "metadata": { "id": "PaoccCy4kRTJ", "colab_type": "code", "colab": {} }, "source": [ "# মডেলকে কম্পাইল করি \n", "\n", "model.compile(optimizer=\"adam\",loss=\"categorical_crossentropy\",metrics=['acc'])" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "0x99_eGIjjtw", "colab_type": "code", "outputId": "9e2b6e7a-2e9f-4688-abf7-c6558bbae5eb", "colab": { "base_uri": "https://localhost:8080/", "height": 265 } }, "source": [ "# মডেলকে ট্রেইন করি ব্যাচ দিয়ে, দেখানোর জন্য\n", "\n", "batch = 32\n", "epochs = 6\n", "model.fit(X_train, y_train, batch, epochs)" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "Train on 4 samples\n", "Epoch 1/6\n", "4/4 [==============================] - 5s 1s/sample - loss: 0.7121 - acc: 0.2500\n", "Epoch 2/6\n", "4/4 [==============================] - 0s 29ms/sample - loss: 0.0903 - acc: 1.0000\n", "Epoch 3/6\n", "4/4 [==============================] - 0s 29ms/sample - loss: 0.0146 - acc: 1.0000\n", "Epoch 4/6\n", "4/4 [==============================] - 0s 29ms/sample - loss: 0.0039 - acc: 1.0000\n", "Epoch 5/6\n", "4/4 [==============================] - 0s 29ms/sample - loss: 0.0015 - acc: 1.0000\n", "Epoch 6/6\n", "4/4 [==============================] - 0s 31ms/sample - loss: 7.6183e-04 - acc: 1.0000\n" ], "name": "stdout" }, { "output_type": "execute_result", "data": { "text/plain": [ "" ] }, "metadata": { "tags": [] }, "execution_count": 13 } ] }, { "cell_type": "code", "metadata": { "id": "XHhypstijkJV", "colab_type": "code", "outputId": "1f1705fc-9bc5-4bce-e6c2-f87acb0d1bf2", "colab": { "base_uri": "https://localhost:8080/", "height": 52 } }, "source": [ "# ইভ্যালুয়েট করে দেখি কি অবস্থা \n", "\n", "model.evaluate(X_test, y_test)" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "\r1/1 [==============================] - 1s 545ms/sample - loss: 0.4236 - acc: 1.0000\n" ], "name": "stdout" }, { "output_type": "execute_result", "data": { "text/plain": [ "[0.42364874482154846, 1.0]" ] }, "metadata": { "tags": [] }, "execution_count": 14 } ] }, { "cell_type": "markdown", "metadata": { "id": "Xih0A5emjqYu", "colab_type": "text" }, "source": [ "# অথবা ফাস্টটেক্সট" ] }, { "cell_type": "code", "metadata": { "id": "zGeCXrnNjsFc", "colab_type": "code", "colab": {} }, "source": [ "from urllib.request import urlopen\n", "import gzip\n", "\n", "# ফাস্টটেক্সটের প্রি-ট্রেইন ভেক্টরগুলোকে নিয়ে আসি, বাংলায় - cc.bn.300.vec.gz ৯০০ মেগাবাইটের মতো \n", "file = gzip.open(urlopen('https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.bn.300.vec.gz'))" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "rui8g6xAju4r", "colab_type": "code", "colab": {} }, "source": [ "vocab_and_vectors = {}\n", "# শব্দগুলোকে ডিকশনারি ইনডেক্সে রাখি, আর ভেক্টরগুলোকে ওয়ার্ড ভ্যালুতে, একটু সময় নেবে \n", "for line in file:\n", " values = line.split()\n", " word = values[0].decode('utf-8')\n", " vector = np.asarray(values[1:], dtype='float32')\n", " # print(word)\n", " vocab_and_vectors[word] = vector" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "xkrBdXqds0Tg", "colab_type": "code", "outputId": "45883091-4a79-4df5-e5ba-daea4e67f177", "colab": { "base_uri": "https://localhost:8080/", "height": 34 } }, "source": [ "# দেখি কি আছে এখানে?\n", "\n", "list(vocab_and_vectors.keys())[2]" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "''" ] }, "metadata": { "tags": [] }, "execution_count": 17 } ] }, { "cell_type": "code", "metadata": { "id": "CpEm8kdIkFDQ", "colab_type": "code", "colab": {} }, "source": [ "# এমবেডিং ম্যাট্রিক্স \n", "\n", "embedding_matrix = np.zeros((len(vocab_and_vectors) + 1, 300))\n", "for i, word, in enumerate(vocab_and_vectors.keys()):\n", " # print(i)\n", " # print(word)\n", " embedding_vector = vocab_and_vectors.get(word)\n", " # যে শব্দগুলো পাওয়া যাবে না, সেগুলোকে '০'তে রাখবো \n", " if embedding_vector is not None:\n", " embedding_matrix[i] = embedding_vector" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "wv4AKCrzrQii", "colab_type": "code", "outputId": "f0b99767-c4ec-4efa-a5bf-17a93b9e3959", "colab": { "base_uri": "https://localhost:8080/", "height": 247 } }, "source": [ "# দেখি কি আছে?\n", "\n", "embedding_matrix" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "array([[ 3.00000000e+02, 3.00000000e+02, 3.00000000e+02, ...,\n", " 3.00000000e+02, 3.00000000e+02, 3.00000000e+02],\n", " [ 5.64000010e-02, 3.53000015e-02, 3.46000008e-02, ...,\n", " 4.83999997e-02, -4.99999989e-03, 8.00000038e-03],\n", " [-1.15999999e-02, -5.90000022e-03, -7.60000013e-03, ...,\n", " -1.83000006e-02, 2.96999998e-02, -1.77999996e-02],\n", " ...,\n", " [ 5.29999984e-03, 7.60000013e-03, 9.80000012e-03, ...,\n", " 2.12999992e-02, 8.99999985e-04, -9.99999975e-05],\n", " [-2.89999996e-03, 1.77999996e-02, 3.99999991e-02, ...,\n", " -3.53000015e-02, 2.55999994e-02, -5.49999997e-03],\n", " [ 0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,\n", " 0.00000000e+00, 0.00000000e+00, 0.00000000e+00]])" ] }, "metadata": { "tags": [] }, "execution_count": 19 } ] }, { "cell_type": "code", "metadata": { "id": "tt21JZS5rbq1", "colab_type": "code", "outputId": "dfbc059d-ccbd-40f9-a642-aa16ffc0172e", "colab": { "base_uri": "https://localhost:8080/", "height": 1000 } }, "source": [ "# এখানেও\n", "\n", "vocab_and_vectors" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "{'1468578': array([300.], dtype=float32),\n", " 'একটি': array([-3.560e-02, -1.420e-02, 1.280e-02, -6.040e-02, -1.060e-02,\n", " 2.900e-02, 3.180e-02, 1.510e-02, -2.640e-02, -2.710e-02,\n", " 2.440e-02, -9.800e-03, -7.000e-03, -2.620e-02, -9.400e-03,\n", " -2.450e-02, -3.400e-02, 1.200e-02, 2.360e-02, -4.000e-04,\n", " -7.370e-02, 1.480e-02, -1.480e-02, 1.760e-02, 2.890e-02,\n", " 5.570e-02, -1.490e-01, 1.170e-02, 6.600e-03, -2.050e-02,\n", " -1.280e-02, 1.250e-02, -1.790e-02, -7.300e-03, -9.700e-03,\n", " 7.600e-03, -2.800e-03, 6.300e-03, -1.260e-02, -5.460e-02,\n", " 1.940e-02, 1.340e-02, -5.200e-02, 1.400e-02, -9.700e-03,\n", " 1.900e-03, -2.300e-03, 4.090e-02, 2.710e-02, -4.760e-02],\n", " dtype=float32),\n", " ...}" ] }, "metadata": { "tags": [] }, "execution_count": 20 } ] }, { "cell_type": "markdown", "metadata": { "id": "VMnJgOVfkJBK", "colab_type": "text" }, "source": [ "## মডেল" ] }, { "cell_type": "code", "metadata": { "id": "3baLK1vJkG-M", "colab_type": "code", "outputId": "cfa9f11c-c2ea-4d85-9dd9-5752afaffb0a", "colab": { "base_uri": "https://localhost:8080/", "height": 265 } }, "source": [ "from tensorflow.keras.models import Sequential\n", "from tensorflow.keras.layers import LSTM, Dense, Embedding\n", "\n", "# লেয়ারকে ইনিশিয়ালাইজ করি, অবশ্যই সিকোয়েন্সিয়াল মডেল \n", "model = Sequential()\n", "# শব্দ ভেক্টরকে এমবেড করি \n", "model.add(Embedding(len(vocab_and_vectors)+1, 300, input_length=X.shape[1], weights=[embedding_matrix], trainable=False))\n", "# ডেটার মধ্যে কো-রিলেশন বোঝার চেষ্টা করতে দেই মডেলকে \n", "model.add(LSTM(300, return_sequences=False))\n", "model.add(Dense(y.shape[1], activation=\"softmax\"))\n", "# মডেলের কাঠামো দেখি \n", "model.summary()" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "Model: \"sequential_1\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "embedding_1 (Embedding) (None, 6, 300) 440574000 \n", "_________________________________________________________________\n", "lstm_1 (LSTM) (None, 300) 721200 \n", "_________________________________________________________________\n", "dense_1 (Dense) (None, 2) 602 \n", "=================================================================\n", "Total params: 441,295,802\n", "Trainable params: 721,802\n", "Non-trainable params: 440,574,000\n", "_________________________________________________________________\n" ], "name": "stdout" } ] }, { "cell_type": "code", "metadata": { "id": "gOLfiJpvnIDQ", "colab_type": "code", "colab": {} }, "source": [ "model.compile(optimizer=\"adam\", loss=\"categorical_crossentropy\", metrics=['acc'])" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "-8HLyTSekchf", "colab_type": "code", "outputId": "4c2d4d15-925f-4d45-a3b3-9e6772419e39", "colab": { "base_uri": "https://localhost:8080/", "height": 478 } }, "source": [ "batch = 32\n", "epochs = 12\n", "model.fit(X_train,y_train,batch,epochs)" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "Train on 4 samples\n", "Epoch 1/12\n", "4/4 [==============================] - 3s 670ms/sample - loss: 0.6542 - acc: 0.7500\n", "Epoch 2/12\n", "4/4 [==============================] - 0s 106ms/sample - loss: 0.5248 - acc: 1.0000\n", "Epoch 3/12\n", "4/4 [==============================] - 0s 108ms/sample - loss: 0.4373 - acc: 1.0000\n", "Epoch 4/12\n", "4/4 [==============================] - 0s 107ms/sample - loss: 0.3568 - acc: 1.0000\n", "Epoch 5/12\n", "4/4 [==============================] - 0s 107ms/sample - loss: 0.2827 - acc: 1.0000\n", "Epoch 6/12\n", "4/4 [==============================] - 0s 108ms/sample - loss: 0.2169 - acc: 1.0000\n", "Epoch 7/12\n", "4/4 [==============================] - 0s 106ms/sample - loss: 0.1599 - acc: 1.0000\n", "Epoch 8/12\n", "4/4 [==============================] - 0s 106ms/sample - loss: 0.1127 - acc: 1.0000\n", "Epoch 9/12\n", "4/4 [==============================] - 0s 108ms/sample - loss: 0.0758 - acc: 1.0000\n", "Epoch 10/12\n", "4/4 [==============================] - 0s 109ms/sample - loss: 0.0487 - acc: 1.0000\n", "Epoch 11/12\n", "4/4 [==============================] - 0s 106ms/sample - loss: 0.0294 - acc: 1.0000\n", "Epoch 12/12\n", "4/4 [==============================] - 0s 106ms/sample - loss: 0.0166 - acc: 1.0000\n" ], "name": "stdout" }, { "output_type": "execute_result", "data": { "text/plain": [ "" ] }, "metadata": { "tags": [] }, "execution_count": 23 } ] }, { "cell_type": "code", "metadata": { "id": "rUF7mmETkiLO", "colab_type": "code", "outputId": "08fd2f79-faa6-4e66-b6c2-1120860cb867", "colab": { "base_uri": "https://localhost:8080/", "height": 52 } }, "source": [ "model.evaluate(X_test,y_test)" ], "execution_count": 0, "outputs": [ { "output_type": "stream", "text": [ "\r1/1 [==============================] - 1s 863ms/sample - loss: 4.4300e-04 - acc: 1.0000\n" ], "name": "stdout" }, { "output_type": "execute_result", "data": { "text/plain": [ "[0.0004430027911439538, 1.0]" ] }, "metadata": { "tags": [] }, "execution_count": 24 } ] }, { "cell_type": "markdown", "metadata": { "id": "_B491JBwcyaj", "colab_type": "text" }, "source": [ "# প্রেডিকশন" ] }, { "cell_type": "code", "metadata": { "id": "o8q3MSzlaPO6", "colab_type": "code", "colab": {} }, "source": [ "# sents = [\"আমি ভালো কাজ জানিনা\",\n", "# \"এই ক্লাসটা বড় হতে পারতো\",\n", "# \"আমি লেখাটা পছন্দ করছি না\",\n", "# \"ভালো কথা না\",\n", "# \"সুন্দর একটা ফুল\",\n", "# \"এই ক্লাস ভালো লেগেছে\"]\n", "\n", "# ইচ্ছেমতো বাক্য লিখে টেস্ট করুন \n", "\n", "sents = ['আমি মেশিন লার্নিং শিখতে পছন্দ করি', 'পছন্দ করি', 'করি না', 'আমি ভাল', 'বেশ কষ্ট', 'এই বইটা বেশ ভালো লাগছে']\n", "# sent_n = [[word_index[w]+3 for w in s.split()] for s in sents]\n", "sent_n = tokenizer.texts_to_sequences(sents)\n", "X_new = pad_sequences(sent_n)\n", "prediction = model.predict(X_new)" ], "execution_count": 0, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "QhbuD0QX5V8d", "colab_type": "code", "outputId": "72c09597-ef12-4324-a5ba-00cfd2974c82", "colab": { "base_uri": "https://localhost:8080/", "height": 34 } }, "source": [ "# '১' মানে পজিটিভ, '০' মানে নেগেটিভ, কারণ pd.get_dummy() দেখিয়েছে কলাম '০' মানে নেগেটিভ আর কলাম '১' মানে পজিটিভ \n", "\n", "np.argmax(prediction, axis=1)" ], "execution_count": 0, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "array([1, 0, 0, 0, 0, 1])" ] }, "metadata": { "tags": [] }, "execution_count": 26 } ] } ] }