{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "name": "small_sent_analysis.ipynb",
      "provenance": [],
      "collapsed_sections": [],
      "machine_shape": "hm",
      "include_colab_link": true
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "accelerator": "GPU"
  },
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "view-in-github",
        "colab_type": "text"
      },
      "source": [
        "<a href=\"https://colab.research.google.com/github/raqueeb/TensorFlow2/blob/master/small_sent_analysis_v2.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "hqrbjC8slEbB",
        "colab_type": "text"
      },
      "source": [
        "## ছোট্ট একটা সেন্টিমেন্ট অ্যানালাইসিস\n",
        "\n"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "f-CTYZ3cdska",
        "colab_type": "text"
      },
      "source": [
        "আমরা প্রায় বইয়ের শেষ পর্যায়ে চলে এসেছি। বাকি আছে দুটো মডেল সামনে। দুটোই সেন্টিমেন্ট অ্যানালাইসিসের ওপর। প্রথমটা একটা বেসিক মডেল, যেটা যে কেউ বুঝতে পারবেন। খুব সহজভাবে উপস্থাপন করা হয়েছে যেটা আগের সব শেখা বিষয়গুলোর কিছুটা কম্পাইলেশন। একদম ছোট একটা ডাটাসেট দিয়ে তৈরি করা, যা সহজেই ভেতরের কম্প্লেক্সিটি বুঝতে সাহায্য করবে। তবে শুরুতেই সেন্টিমেন্ট অ্যানালাইসিস কি আর কেনই বা এটা নিয়ে এতো তোলপাড়?\n",
        "\n",
        "কিছুদিন আগ পর্যন্ত একটা ব্র্যান্ডের ভ্যালুয়েশন নির্ভর করত তার ব্যাপারে মানুষজন একে অপরকে কি বলছে? আমরা যাকে বলছি ‘ওয়ার্ড অফ মাউথ’। আমরা একটা জিনিস কেনার আগে বন্ধুবান্ধবকে জিজ্ঞাসা করে কিনতাম। অথবা ওই জিনিসটার ওপর পেপারে যদি কেউ লেখালিখি করে সেটার ওপর ভিত্তি করে একটা সিদ্ধান্ত নিয়ে ফেলতাম। কোম্পানিগুলো বড় বড় সেলিব্রেটিকে ব্যবহার করত তাদের প্রোডাক্টের অ্যাডভার্টাইজমেন্ট এ। খেয়াল আছে পিয়ারসনের কথা? ছোটবেলার টিভিতে ওই ব্র্যান্ডগুলোর জিংগেল এখনো মনে আছে।\n",
        "\n",
        "এখন কি করি? একটা প্রোডাক্ট কেনার আগে ইন্টারনেটে দেখি তার ব্যাপারে ‘রিভিউ’ কেমন? বিশেষ করে প্রতিটা প্রোডাক্টের সাথে ‘ইউজার রিভিউ’ একটা বিশাল জিনিস। এতে বেড়েছে ট্রান্সপারেন্সি। একটা বাজে জিনিস গুছিয়ে দিয়ে পার পাবেনা কোম্পানি। একজন ব্যবহারকারী হিসেবে যেভাবে আমরা একটা প্রোডাক্ট নিয়ে ইন্টারনেটে রিসার্চ করি, সে ধরনের কাছাকাছি রিসার্চ করে থাকে বর্তমান কোম্পানিগুলো। তার প্রোডাক্টগুলো বাজারে কেমন চলছে, পাশাপাশি সেগুলোর ব্যাপারে ব্যবহারকারীরা কি বলছেন অথবা সামনের প্রোডাক্টে কি ধরনের ‘রিভিশন’ বা মডিফিকেশন আসতে পারে সেগুলোর ইনপুট আসবে ইন্টারনেটের বিভিন্ন রিভিউ থেকে। তবে সেটা সমস্যা হয়ে দাঁড়ায় যখন কোম্পানিটি তার ব্র্যান্ডের সোশ্যাল সেন্টিমেন্ট নিয়ে কাজ শুরু করেন। এত মানুষ, হাজারো কমেন্ট, অনেক ধরনের রিঅ্যাকশন এই সবকিছুকে প্রসেস করতে গেলে সেই রিসোর্স ম্যানেজ করবে কে? সেখানে চলে এসেছে ডিপ লার্নিং। মানুষের মনের খবর জানতে সেন্টিমেন্ট অ্যানালাইসিস এর নতুন জগৎ।\n",
        "\n",
        "আমরা যখন একটা ব্যাপারে প্রচুর তথ্য পাই, তখন সেগুলোকে অ্যানালাইসিস করার জন্য আমাদেরকে ‘লাইন বাই লাইন’ পড়তে হবে। আর এখন যেভাবে সোশ্যাল মিডিয়া, ব্লগ, হাজারো ইলেকট্রনিক পাবলিকেশন মিনিটে অগুনিত ইউজার জেনারেটেড কনটেন্ট তৈরি করছে, সেখানে ডিপ লার্নিং ছাড়া এই ধরনের ডাটা প্রসেস করা দুষ্কর। শুধুমাত্র ডাটা প্রসেসিং নয় - এর মধ্যে টেক্সটগুলোর কন্টেক্সটুয়াল মাইনিং থেকে কোন তথ্যটি দরকার আর কোন তথ্যটি নয়, সেটা জানতে ডিপ লার্নিংকে বুঝতে হবে কিভাবে মানুষ তার মনের ভাব প্রকাশ করে। কে কি শব্দ বলল, শব্দটা বাক্যের কোথায় আছে, আগের এবং পরের বাক্যের সাথে এর সংযোগ/সিমিলারিটি কতটুকু সেটা বের করতে সেন্টিমেন্ট অ্যানালাইসিস বিশাল কাজ করে।\n",
        "\n",
        "শুধুমাত্র কোম্পানিগুলো নয়, এখন অনেক দেশ তাদের জনগণের যেকোন বিষয়ে মনোভাব বোঝার জন্য এই সেন্টিমেন্ট অ্যানালাইসিস ব্যবহার করে থাকে। সরকারের প্রচুর সেবা যেহেতু জনগণের জন্য টার্গেট করে তৈরি করা, সেখানে সরকার তো জানতে চাইতেই পারেন - তাদের সার্ভিস ডেলিভারী প্লাটফর্মগুলো কিভাবে কাজ করছে, কেমন পারফর্ম করছে? সেন্টিমেন্ট অ্যানালাইসিস কিছু ধারনা আগে পেয়েছি আগের চ্যাপ্টারে। তবে সেটার আরো ভালো ধারণা নেবার চেষ্টা করব নিচের কোড থেকে। \n",
        "\n",
        "সাধারণ ‘টেক্সট’ থেকে মানুষের মতো করে বোঝার সিস্টেম চলে এসেছে এখন। সেখানে সেন্টিমেন্ট অ্যানালাইসিসে যেকোনো একটা টেক্সট থেকে সেই ব্যাপারটা ‘পজিটিভ’ না ‘নেগেটিভ’ নাকি একেবারে ‘নিউট্রাল’ - সেটার একটা ধারণা দিতে পারে এই জিনিস। এর পাশাপাশি চলে এসেছে ‘ইনটেন্ট অ্যানালাইসিস’ যেটা আসলে সেন্টিমেন্ট অ্যানালাইসিসের আরেক ধাপ ওপরে - যা ওই টেক্সট থেকে ব্যবহারকারীর ‘ইনটেনশন’ মনোভাব নিয়ে একটা প্রেডিকশন দিতে পারে। ওই টেক্সট থেকে বলে দিতে পারে উনি এরপর কি করতে পারেন।\n",
        "\n",
        "শুরুতেই ডেটা প্রি-প্রসেসিং। আর, একটা ছোট্ট ডাটাসেট। অ্যাক্যুরেসি ইম্পর্ট্যান্ট কিছু নয়, ফ্রেমওয়ার্কটা বুঝেলেই হবে।"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "HdpW5GsyquyK",
        "colab_type": "code",
        "outputId": "221f8ec1-7b40-48cb-e12a-482e3b71fd3f",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 34
        }
      },
      "source": [
        "try:\n",
        "  # শুধুমাত্র টেন্সর-ফ্লো ২.x ব্যবহার করবো \n",
        "  %tensorflow_version 2.x\n",
        "except Exception:\n",
        "  pass\n",
        "\n",
        "import tensorflow as tf\n",
        "keras = tf.keras"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "TensorFlow 2.x selected.\n"
          ],
          "name": "stdout"
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "5a8NwbxoqbYi",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# বাড়তি ওয়ার্নিং ফেলে দিচ্ছি, আপনাদের কাজের সময় লাগবে না \n",
        "import warnings\n",
        "warnings.filterwarnings(\"ignore\")"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "b_uejXCRh2NC",
        "colab_type": "text"
      },
      "source": [
        "## ডেটা প্রি-প্রসেসিং"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "jeun9eX-hwxc",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# আমরা কিছু লাইব্রেরি যোগ করে নিচ্ছি \n",
        "import gensim, re\n",
        "import numpy as np\n",
        "import pandas as pd\n",
        "\n",
        "# একটা ডেটা ডিকশনারি বানাই, আমাদের পছন্দ মতো বাক্য \n",
        "\n",
        "data = ['আমি মেশিন লার্নিং শিখতে পছন্দ করি',\n",
        "        'আমার বই পড়তে ভালো লাগে না',\n",
        "        'পাইথন শিখতে কষ্ট',\n",
        "        'এই বইটা বেশ ভালো লাগছে',\n",
        "        'আমার ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং পছন্দ']\n",
        "\n",
        "labels = ['positive', 'negative', 'negative', 'positive', 'positive']\n",
        "\n",
        "# আমাদের ডেটাকে কিছুটা প্রি-প্রসেস করি, বাংলা ইউনিকোড রেঞ্জের বাইরে সবকিছু ফেলে দিচ্ছি \n",
        "\n",
        "text = [re.sub(r'[^\\u0980-\\u09FF ]+', '', sentence) for sentence in data]"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "jGjtt-73SFL2",
        "colab_type": "code",
        "outputId": "7a70b28b-3d55-4f47-cfd0-66be64dd397f",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 105
        }
      },
      "source": [
        "# দেখি সে কি দেখায়?\n",
        "text"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "['আমি মেশিন লার্নিং শিখতে পছন্দ করি',\n",
              " 'আমার বই পড়তে ভালো লাগে না',\n",
              " 'পাইথন শিখতে কষ্ট',\n",
              " 'এই বইটা বেশ ভালো লাগছে',\n",
              " 'আমার ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং পছন্দ']"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 3
        }
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "nKMotPUziPWW",
        "colab_type": "text"
      },
      "source": [
        "## টোকেনাইজার"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "wIxMgUi_iR0Q",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# আরো কিছু লাইব্রেরি যোগ করি \n",
        "from sklearn.model_selection import train_test_split\n",
        "from tensorflow.keras.preprocessing.text import Tokenizer\n",
        "from tensorflow.keras.preprocessing.sequence import pad_sequences\n",
        "\n",
        "# আমাদের টোকেনাইজার কতগুলো ফিচার এক্সট্র্যাক্ট করবে?\n",
        "features = 500\n",
        "tokenizer = Tokenizer(num_words = features)\n",
        "\n",
        "# আমাদের টোকেনাইজারকে পুরো টেক্সটে ফিট করতে হবে \n",
        "tokenizer.fit_on_texts(text)\n",
        "\n",
        "# আমাদের টোকেনাইজার চেনে সেরকম শব্দ নিয়ে আসতে হবে \n",
        "word_index = tokenizer.word_index\n",
        "\n",
        "# ম্যাট্রিক্স এর মধ্যে টোকেনকে ফেলি \n",
        "X = tokenizer.texts_to_sequences(text)\n",
        "X = pad_sequences(X)\n",
        "\n",
        "# লেবেল তৈরি করি \n",
        "y = np.asarray(pd.get_dummies(labels))"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "mb8G1_fv0yri",
        "colab_type": "code",
        "outputId": "6d6dec7c-39f5-48f9-c420-3c1810d1a3b4",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 197
        }
      },
      "source": [
        "# লেবেল দেখি কি  আছে ভেতরে?\n",
        "\n",
        "pd.get_dummies(labels)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/html": [
              "<div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>negative</th>\n",
              "      <th>positive</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>"
            ],
            "text/plain": [
              "   negative  positive\n",
              "0         0         1\n",
              "1         1         0\n",
              "2         1         0\n",
              "3         0         1\n",
              "4         0         1"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 5
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "NNpue4lWcnlT",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# ট্রেইন এবং টেস্ট ডেটাসেটকে আলাদা করি \n",
        "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, shuffle=False)"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Rbm4l1jNiDPe",
        "colab_type": "text"
      },
      "source": [
        "## ওয়ার্ড২ভেক\n",
        "\n",
        "এখানে আমরা দুটো এপ্রোচ নিয়েছি, একটা ছোট ডেটাসেট, আরেকটা একটু বড় বাংলা উইকি থেকে নেয়া। "
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "ZddpDaYOuhjV",
        "colab_type": "code",
        "outputId": "5fcb6ec2-e52d-4c5e-f741-4bc320fd9e6f",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 247
        }
      },
      "source": [
        "# আগেও ব্যবহার করেছিলাম \n",
        "\n",
        "!wget https://raw.githubusercontent.com/raqueeb/datasets/master/bnwiki-texts.zip\n",
        "!unzip bnwiki-texts.zip\n",
        "preprocessed_text_file_path = 'bnwiki-texts-preprocessed.txt'\n",
        "\n",
        "lines_from_file = []\n",
        "with open(preprocessed_text_file_path, encoding='utf8') as text_file:\n",
        "    for line in text_file:\n",
        "        lines_from_file.append(line)\n",
        "      \n",
        "tokenized_lines = []\n",
        "for single_line in lines_from_file:\n",
        "    tokenized_lines.append(single_line.split())"
      ],
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "--2019-11-08 14:44:19--  https://raw.githubusercontent.com/raqueeb/datasets/master/bnwiki-texts.zip\n",
            "Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...\n",
            "Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.\n",
            "HTTP request sent, awaiting response... 200 OK\n",
            "Length: 61696513 (59M) [application/zip]\n",
            "Saving to: ‘bnwiki-texts.zip’\n",
            "\n",
            "bnwiki-texts.zip    100%[===================>]  58.84M   176MB/s    in 0.3s    \n",
            "\n",
            "2019-11-08 14:44:19 (176 MB/s) - ‘bnwiki-texts.zip’ saved [61696513/61696513]\n",
            "\n",
            "Archive:  bnwiki-texts.zip\n",
            "  inflating: bnwiki-texts-preprocessed.txt  \n"
          ],
          "name": "stdout"
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "iD9oaDuGiA02",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# ওয়ার্ড২ভেককে ট্রেইন করি আমাদের দু ধরণের ডেটা দিয়ে, টেস্ট করি দুটো দিয়ে দুবার - আলাদা করে \n",
        "# একটু সময় লাগবে \n",
        "word_model = gensim.models.Word2Vec(tokenized_lines, size=300, min_count=1, iter=10)\n",
        "# word_model = gensim.models.Word2Vec(text, size=300, min_count=1, iter=10)"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "_fyaI4MviIPy",
        "colab_type": "code",
        "outputId": "1c2bffa1-922d-4501-f472-18a24c86fe08",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 250
        }
      },
      "source": [
        "# টেস্ট করি ওয়ার্ড২ভেক কাজ করে কিনা \n",
        "word_model.wv.most_similar(positive='আমি')"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "/usr/local/lib/python3.6/dist-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.\n",
            "  if np.issubdtype(vec.dtype, np.int):\n"
          ],
          "name": "stderr"
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "[('আমরা', 0.7259500026702881),\n",
              " ('তুমি', 0.6985121965408325),\n",
              " ('আপনি', 0.6706202030181885),\n",
              " ('আমার', 0.669513463973999),\n",
              " ('তোমরা', 0.66762375831604),\n",
              " ('তোমার', 0.6606091856956482),\n",
              " ('আমাকে', 0.6351409554481506),\n",
              " ('তোমাকে', 0.6340588331222534),\n",
              " ('আপনাকে', 0.6301310658454895),\n",
              " ('আপনারা', 0.5874826312065125)]"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 9
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "9bP1yWd_iIwk",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# নতুন ম্যাট্রিক্সে সেভ করি ভেক্টরগুলোকে \n",
        "embedding_matrix = np.zeros((len(word_model.wv.vocab) + 1, 300))\n",
        "for i, vec in enumerate(word_model.wv.vectors):\n",
        "  embedding_matrix[i] = vec"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "pO-4C5r5jiS1",
        "colab_type": "text"
      },
      "source": [
        "## তৈরি করি মডেল"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "EaI3lLJFjdA2",
        "colab_type": "code",
        "outputId": "d3cab2a8-0eb9-495a-bf63-92e727229ea1",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 265
        }
      },
      "source": [
        "from tensorflow.keras.models import Sequential\n",
        "from tensorflow.keras.layers import LSTM, Dense, Embedding\n",
        "\n",
        "# লেয়ারকে ইনিশিয়ালাইজ করি, অবশ্যই সিকোয়েন্সিয়াল মডেল  \n",
        "model = Sequential()\n",
        "# শব্দ ভেক্টরকে এমবেড করি \n",
        "model.add(Embedding(len(word_model.wv.vocab)+1, 300, input_length=X.shape[1], weights=[embedding_matrix], trainable=False))\n",
        "# ডেটার মধ্যে কো-রিলেশন বোঝার চেষ্টা করতে দেই মডেলকে \n",
        "model.add(LSTM(300,return_sequences=False))\n",
        "model.add(Dense(y.shape[1],activation=\"softmax\"))\n",
        "# মডেলের কাঠামো দেখি \n",
        "model.summary()"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "Model: \"sequential\"\n",
            "_________________________________________________________________\n",
            "Layer (type)                 Output Shape              Param #   \n",
            "=================================================================\n",
            "embedding (Embedding)        (None, 6, 300)            200881800 \n",
            "_________________________________________________________________\n",
            "lstm (LSTM)                  (None, 300)               721200    \n",
            "_________________________________________________________________\n",
            "dense (Dense)                (None, 2)                 602       \n",
            "=================================================================\n",
            "Total params: 201,603,602\n",
            "Trainable params: 721,802\n",
            "Non-trainable params: 200,881,800\n",
            "_________________________________________________________________\n"
          ],
          "name": "stdout"
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "PaoccCy4kRTJ",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# মডেলকে কম্পাইল করি \n",
        "\n",
        "model.compile(optimizer=\"adam\",loss=\"categorical_crossentropy\",metrics=['acc'])"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "0x99_eGIjjtw",
        "colab_type": "code",
        "outputId": "9e2b6e7a-2e9f-4688-abf7-c6558bbae5eb",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 265
        }
      },
      "source": [
        "# মডেলকে ট্রেইন করি ব্যাচ দিয়ে, দেখানোর জন্য\n",
        "\n",
        "batch = 32\n",
        "epochs = 6\n",
        "model.fit(X_train, y_train, batch, epochs)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "Train on 4 samples\n",
            "Epoch 1/6\n",
            "4/4 [==============================] - 5s 1s/sample - loss: 0.7121 - acc: 0.2500\n",
            "Epoch 2/6\n",
            "4/4 [==============================] - 0s 29ms/sample - loss: 0.0903 - acc: 1.0000\n",
            "Epoch 3/6\n",
            "4/4 [==============================] - 0s 29ms/sample - loss: 0.0146 - acc: 1.0000\n",
            "Epoch 4/6\n",
            "4/4 [==============================] - 0s 29ms/sample - loss: 0.0039 - acc: 1.0000\n",
            "Epoch 5/6\n",
            "4/4 [==============================] - 0s 29ms/sample - loss: 0.0015 - acc: 1.0000\n",
            "Epoch 6/6\n",
            "4/4 [==============================] - 0s 31ms/sample - loss: 7.6183e-04 - acc: 1.0000\n"
          ],
          "name": "stdout"
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "<tensorflow.python.keras.callbacks.History at 0x7f6780296668>"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 13
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "XHhypstijkJV",
        "colab_type": "code",
        "outputId": "1f1705fc-9bc5-4bce-e6c2-f87acb0d1bf2",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 52
        }
      },
      "source": [
        "# ইভ্যালুয়েট করে দেখি কি অবস্থা \n",
        "\n",
        "model.evaluate(X_test, y_test)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "\r1/1 [==============================] - 1s 545ms/sample - loss: 0.4236 - acc: 1.0000\n"
          ],
          "name": "stdout"
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "[0.42364874482154846, 1.0]"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 14
        }
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Xih0A5emjqYu",
        "colab_type": "text"
      },
      "source": [
        "# অথবা ফাস্টটেক্সট"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "zGeCXrnNjsFc",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "from urllib.request import urlopen\n",
        "import gzip\n",
        "\n",
        "# ফাস্টটেক্সটের প্রি-ট্রেইন ভেক্টরগুলোকে নিয়ে আসি, বাংলায় - cc.bn.300.vec.gz ৯০০ মেগাবাইটের মতো \n",
        "file = gzip.open(urlopen('https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.bn.300.vec.gz'))"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "rui8g6xAju4r",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "vocab_and_vectors = {}\n",
        "# শব্দগুলোকে ডিকশনারি ইনডেক্সে রাখি, আর ভেক্টরগুলোকে ওয়ার্ড ভ্যালুতে, একটু সময় নেবে  \n",
        "for line in file:\n",
        "  values = line.split()\n",
        "  word = values[0].decode('utf-8')\n",
        "  vector = np.asarray(values[1:], dtype='float32')\n",
        "  # print(word)\n",
        "  vocab_and_vectors[word] = vector"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "xkrBdXqds0Tg",
        "colab_type": "code",
        "outputId": "45883091-4a79-4df5-e5ba-daea4e67f177",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 34
        }
      },
      "source": [
        "# দেখি কি আছে এখানে?\n",
        "\n",
        "list(vocab_and_vectors.keys())[2]"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "'</s>'"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 17
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "CpEm8kdIkFDQ",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# এমবেডিং ম্যাট্রিক্স \n",
        "\n",
        "embedding_matrix = np.zeros((len(vocab_and_vectors) + 1, 300))\n",
        "for i, word, in enumerate(vocab_and_vectors.keys()):\n",
        "  # print(i)\n",
        "  # print(word)\n",
        "  embedding_vector = vocab_and_vectors.get(word)\n",
        "  # যে শব্দগুলো পাওয়া যাবে না, সেগুলোকে '০'তে রাখবো \n",
        "  if embedding_vector is not None:\n",
        "    embedding_matrix[i] = embedding_vector"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "wv4AKCrzrQii",
        "colab_type": "code",
        "outputId": "f0b99767-c4ec-4efa-a5bf-17a93b9e3959",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 247
        }
      },
      "source": [
        "# দেখি কি আছে?\n",
        "\n",
        "embedding_matrix"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[ 3.00000000e+02,  3.00000000e+02,  3.00000000e+02, ...,\n",
              "         3.00000000e+02,  3.00000000e+02,  3.00000000e+02],\n",
              "       [ 5.64000010e-02,  3.53000015e-02,  3.46000008e-02, ...,\n",
              "         4.83999997e-02, -4.99999989e-03,  8.00000038e-03],\n",
              "       [-1.15999999e-02, -5.90000022e-03, -7.60000013e-03, ...,\n",
              "        -1.83000006e-02,  2.96999998e-02, -1.77999996e-02],\n",
              "       ...,\n",
              "       [ 5.29999984e-03,  7.60000013e-03,  9.80000012e-03, ...,\n",
              "         2.12999992e-02,  8.99999985e-04, -9.99999975e-05],\n",
              "       [-2.89999996e-03,  1.77999996e-02,  3.99999991e-02, ...,\n",
              "        -3.53000015e-02,  2.55999994e-02, -5.49999997e-03],\n",
              "       [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00, ...,\n",
              "         0.00000000e+00,  0.00000000e+00,  0.00000000e+00]])"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 19
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "tt21JZS5rbq1",
        "colab_type": "code",
        "outputId": "dfbc059d-ccbd-40f9-a642-aa16ffc0172e",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 1000
        }
      },
      "source": [
        "# এখানেও\n",
        "\n",
        "vocab_and_vectors"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "{'1468578': array([300.], dtype=float32),\n",
              " 'একটি': array([-3.560e-02, -1.420e-02,  1.280e-02, -6.040e-02, -1.060e-02,\n",
              "         2.900e-02,  3.180e-02,  1.510e-02, -2.640e-02, -2.710e-02,\n",
              "         2.440e-02, -9.800e-03, -7.000e-03, -2.620e-02, -9.400e-03,\n",
              "        -2.450e-02, -3.400e-02,  1.200e-02,  2.360e-02, -4.000e-04,\n",
              "        -7.370e-02,  1.480e-02, -1.480e-02,  1.760e-02,  2.890e-02,\n",
              "         5.570e-02, -1.490e-01,  1.170e-02,  6.600e-03, -2.050e-02,\n",
              "        -1.280e-02,  1.250e-02, -1.790e-02, -7.300e-03, -9.700e-03,\n",
              "         7.600e-03, -2.800e-03,  6.300e-03, -1.260e-02, -5.460e-02,\n",
              "         1.940e-02,  1.340e-02, -5.200e-02,  1.400e-02, -9.700e-03,\n",
              "         1.900e-03, -2.300e-03,  4.090e-02,  2.710e-02, -4.760e-02],\n",
              "       dtype=float32),\n",
              " ...}"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 20
        }
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "VMnJgOVfkJBK",
        "colab_type": "text"
      },
      "source": [
        "## মডেল"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "3baLK1vJkG-M",
        "colab_type": "code",
        "outputId": "cfa9f11c-c2ea-4d85-9dd9-5752afaffb0a",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 265
        }
      },
      "source": [
        "from tensorflow.keras.models import Sequential\n",
        "from tensorflow.keras.layers import LSTM, Dense, Embedding\n",
        "\n",
        "# লেয়ারকে ইনিশিয়ালাইজ করি, অবশ্যই সিকোয়েন্সিয়াল মডেল  \n",
        "model = Sequential()\n",
        "# শব্দ ভেক্টরকে এমবেড করি \n",
        "model.add(Embedding(len(vocab_and_vectors)+1, 300, input_length=X.shape[1], weights=[embedding_matrix], trainable=False))\n",
        "# ডেটার মধ্যে কো-রিলেশন বোঝার চেষ্টা করতে দেই মডেলকে \n",
        "model.add(LSTM(300, return_sequences=False))\n",
        "model.add(Dense(y.shape[1], activation=\"softmax\"))\n",
        "# মডেলের কাঠামো দেখি \n",
        "model.summary()"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "Model: \"sequential_1\"\n",
            "_________________________________________________________________\n",
            "Layer (type)                 Output Shape              Param #   \n",
            "=================================================================\n",
            "embedding_1 (Embedding)      (None, 6, 300)            440574000 \n",
            "_________________________________________________________________\n",
            "lstm_1 (LSTM)                (None, 300)               721200    \n",
            "_________________________________________________________________\n",
            "dense_1 (Dense)              (None, 2)                 602       \n",
            "=================================================================\n",
            "Total params: 441,295,802\n",
            "Trainable params: 721,802\n",
            "Non-trainable params: 440,574,000\n",
            "_________________________________________________________________\n"
          ],
          "name": "stdout"
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "gOLfiJpvnIDQ",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "model.compile(optimizer=\"adam\", loss=\"categorical_crossentropy\", metrics=['acc'])"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "-8HLyTSekchf",
        "colab_type": "code",
        "outputId": "4c2d4d15-925f-4d45-a3b3-9e6772419e39",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 478
        }
      },
      "source": [
        "batch = 32\n",
        "epochs = 12\n",
        "model.fit(X_train,y_train,batch,epochs)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "Train on 4 samples\n",
            "Epoch 1/12\n",
            "4/4 [==============================] - 3s 670ms/sample - loss: 0.6542 - acc: 0.7500\n",
            "Epoch 2/12\n",
            "4/4 [==============================] - 0s 106ms/sample - loss: 0.5248 - acc: 1.0000\n",
            "Epoch 3/12\n",
            "4/4 [==============================] - 0s 108ms/sample - loss: 0.4373 - acc: 1.0000\n",
            "Epoch 4/12\n",
            "4/4 [==============================] - 0s 107ms/sample - loss: 0.3568 - acc: 1.0000\n",
            "Epoch 5/12\n",
            "4/4 [==============================] - 0s 107ms/sample - loss: 0.2827 - acc: 1.0000\n",
            "Epoch 6/12\n",
            "4/4 [==============================] - 0s 108ms/sample - loss: 0.2169 - acc: 1.0000\n",
            "Epoch 7/12\n",
            "4/4 [==============================] - 0s 106ms/sample - loss: 0.1599 - acc: 1.0000\n",
            "Epoch 8/12\n",
            "4/4 [==============================] - 0s 106ms/sample - loss: 0.1127 - acc: 1.0000\n",
            "Epoch 9/12\n",
            "4/4 [==============================] - 0s 108ms/sample - loss: 0.0758 - acc: 1.0000\n",
            "Epoch 10/12\n",
            "4/4 [==============================] - 0s 109ms/sample - loss: 0.0487 - acc: 1.0000\n",
            "Epoch 11/12\n",
            "4/4 [==============================] - 0s 106ms/sample - loss: 0.0294 - acc: 1.0000\n",
            "Epoch 12/12\n",
            "4/4 [==============================] - 0s 106ms/sample - loss: 0.0166 - acc: 1.0000\n"
          ],
          "name": "stdout"
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "<tensorflow.python.keras.callbacks.History at 0x7f65115c6630>"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 23
        }
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "rUF7mmETkiLO",
        "colab_type": "code",
        "outputId": "08fd2f79-faa6-4e66-b6c2-1120860cb867",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 52
        }
      },
      "source": [
        "model.evaluate(X_test,y_test)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "\r1/1 [==============================] - 1s 863ms/sample - loss: 4.4300e-04 - acc: 1.0000\n"
          ],
          "name": "stdout"
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "[0.0004430027911439538, 1.0]"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 24
        }
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "_B491JBwcyaj",
        "colab_type": "text"
      },
      "source": [
        "# প্রেডিকশন"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "o8q3MSzlaPO6",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "# sents = [\"আমি ভালো কাজ জানিনা\",\n",
        "#          \"এই ক্লাসটা বড় হতে পারতো\",\n",
        "#          \"আমি লেখাটা পছন্দ করছি না\",\n",
        "#          \"ভালো কথা না\",\n",
        "#          \"সুন্দর একটা ফুল\",\n",
        "#          \"এই ক্লাস ভালো লেগেছে\"]\n",
        "\n",
        "# ইচ্ছেমতো বাক্য লিখে টেস্ট করুন \n",
        "\n",
        "sents = ['আমি মেশিন লার্নিং শিখতে পছন্দ করি', 'পছন্দ করি', 'করি না', 'আমি ভাল', 'বেশ কষ্ট', 'এই বইটা বেশ ভালো লাগছে']\n",
        "# sent_n = [[word_index[w]+3 for w in s.split()] for s in sents]\n",
        "sent_n = tokenizer.texts_to_sequences(sents)\n",
        "X_new = pad_sequences(sent_n)\n",
        "prediction = model.predict(X_new)"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "QhbuD0QX5V8d",
        "colab_type": "code",
        "outputId": "72c09597-ef12-4324-a5ba-00cfd2974c82",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 34
        }
      },
      "source": [
        "# '১' মানে পজিটিভ, '০' মানে নেগেটিভ, কারণ pd.get_dummy() দেখিয়েছে কলাম '০' মানে নেগেটিভ আর কলাম '১' মানে পজিটিভ  \n",
        "\n",
        "np.argmax(prediction, axis=1)"
      ],
      "execution_count": 0,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([1, 0, 0, 0, 0, 1])"
            ]
          },
          "metadata": {
            "tags": []
          },
          "execution_count": 26
        }
      ]
    }
  ]
}