{ "cells": [ { "cell_type": "markdown", "id": "e62016b9", "metadata": { "id": "uuxf62kbtv8P" }, "source": [ "**16장 – RNN과 어텐션을 사용한 자연어 처리**" ] }, { "cell_type": "markdown", "id": "66523268", "metadata": { "id": "dtjXopCdtv8R" }, "source": [ "_이 노트북은 16장에 있는 모든 샘플 코드를 담고 있습니다._" ] }, { "cell_type": "markdown", "id": "b3b698d6", "metadata": { "id": "As36LGNPtv8R" }, "source": [ "\n", " \n", "
\n", " 구글 코랩에서 실행하기\n", "
" ] }, { "cell_type": "markdown", "id": "d154b18f", "metadata": { "id": "sy44ghc0tv8S" }, "source": [ "# 설정" ] }, { "cell_type": "markdown", "id": "a00e86d4", "metadata": { "id": "a0lV3k33tv8S" }, "source": [ "먼저 몇 개의 모듈을 임포트합니다. 맷플롯립 그래프를 인라인으로 출력하도록 만들고 그림을 저장하는 함수를 준비합니다. 또한 파이썬 버전이 3.5 이상인지 확인합니다(파이썬 2.x에서도 동작하지만 곧 지원이 중단되므로 파이썬 3을 사용하는 것이 좋습니다). 사이킷런 버전이 0.20 이상인지와 텐서플로 버전이 2.0 이상인지 확인합니다." ] }, { "cell_type": "code", "execution_count": 1, "id": "6d424be1", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "caLeuj3ntv8S", "outputId": "3eb920aa-e154-48ee-b4b9-a44e0a8dfb6a" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\u001b[K |████████████████████████████████| 1.1 MB 3.2 MB/s \n", "\u001b[K |████████████████████████████████| 2.6 MB 4.0 MB/s \n", "\u001b[K |████████████████████████████████| 895 kB 71.1 MB/s \n", "\u001b[K |████████████████████████████████| 3.3 MB 20.5 MB/s \n", "\u001b[K |████████████████████████████████| 636 kB 67.3 MB/s \n", "\u001b[?25h" ] } ], "source": [ "# 파이썬 ≥3.5 필수\n", "import sys\n", "assert sys.version_info >= (3, 5)\n", "\n", "# 사이킷런 ≥0.20 필수\n", "import sklearn\n", "assert sklearn.__version__ >= \"0.20\"\n", "\n", "try:\n", " # %tensorflow_version은 코랩에서만 동작합니다.\n", " %tensorflow_version 2.x\n", " %pip install -q -U tensorflow-addons\n", " %pip install -q -U transformers\n", " IS_COLAB = True\n", "except Exception:\n", " IS_COLAB = False\n", "\n", "# 텐서플로 ≥2.0 필수\n", "import tensorflow as tf\n", "from tensorflow import keras\n", "assert tf.__version__ >= \"2.0\"\n", "\n", "if not tf.config.list_physical_devices('GPU'):\n", " print(\"감지된 GPU가 없습니다. GPU가 없으면 LSTM과 CNN이 매우 느릴 수 있습니다.\")\n", " if IS_COLAB:\n", " print(\"런타임 > 런타임 유형 변경 메뉴를 선택하고 하드웨어 가속기로 GPU를 고르세요.\")\n", "\n", "# 공통 모듈 임포트\n", "import numpy as np\n", "import os\n", "\n", "# 노트북 실행 결과를 동일하게 유지하기 위해\n", "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "# 깔끔한 그래프 출력을 위해\n", "%matplotlib inline\n", "import matplotlib as mpl\n", "import matplotlib.pyplot as plt\n", "mpl.rc('axes', labelsize=14)\n", "mpl.rc('xtick', labelsize=12)\n", "mpl.rc('ytick', labelsize=12)\n", "\n", "# 그림을 저장할 위치\n", "PROJECT_ROOT_DIR = \".\"\n", "CHAPTER_ID = \"nlp\"\n", "IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, \"images\", CHAPTER_ID)\n", "os.makedirs(IMAGES_PATH, exist_ok=True)\n", "\n", "def save_fig(fig_id, tight_layout=True, fig_extension=\"png\", resolution=300):\n", " path = os.path.join(IMAGES_PATH, fig_id + \".\" + fig_extension)\n", " print(\"그림 저장\", fig_id)\n", " if tight_layout:\n", " plt.tight_layout()\n", " plt.savefig(path, format=fig_extension, dpi=resolution)" ] }, { "cell_type": "markdown", "id": "f52c85ec", "metadata": { "id": "BgY8rP0htv8U" }, "source": [ "# Char-RNN" ] }, { "cell_type": "markdown", "id": "4980d941", "metadata": { "id": "qnqmHS-dtv8U" }, "source": [ "## 시퀀스를 셔플 윈도우 배치로 나누기" ] }, { "cell_type": "markdown", "id": "ac0e151d", "metadata": { "id": "Z-ONrcMgtv8V" }, "source": [ "예를 들어, 0~14까지 시퀀스를 2개씩 이동하면서 길이가 5인 윈도우로 나누어 보죠(가령,`[0, 1, 2, 3, 4]`, `[2, 3, 4, 5, 6]`, 등). 그다음 이를 섞고 입력(처음 네 개의 스텝)과 타깃(마지막 네 개의 스텝)으로 나눕니다(즉, `[2, 3, 4, 5, 6]`를 `[[2, 3, 4, 5], [3, 4, 5, 6]]`로 나눕니다). 그다음 입력/타깃 쌍 세 개로 구성된 배치를 만듭니다:" ] }, { "cell_type": "code", "execution_count": 2, "id": "2e32ebc8", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Y6xeL2EAtv8V", "outputId": "cfab52da-9116-4775-e603-8b5fd0a6979a", "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "____________________ Batch 0 \n", "X_batch\n", "[[6 7 8 9]\n", " [2 3 4 5]\n", " [4 5 6 7]]\n", "===== \n", "Y_batch\n", "[[ 7 8 9 10]\n", " [ 3 4 5 6]\n", " [ 5 6 7 8]]\n", "____________________ Batch 1 \n", "X_batch\n", "[[ 0 1 2 3]\n", " [ 8 9 10 11]\n", " [10 11 12 13]]\n", "===== \n", "Y_batch\n", "[[ 1 2 3 4]\n", " [ 9 10 11 12]\n", " [11 12 13 14]]\n" ] } ], "source": [ "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "n_steps = 5\n", "dataset = tf.data.Dataset.from_tensor_slices(tf.range(15))\n", "dataset = dataset.window(n_steps, shift=2, drop_remainder=True)\n", "dataset = dataset.flat_map(lambda window: window.batch(n_steps))\n", "dataset = dataset.shuffle(10).map(lambda window: (window[:-1], window[1:]))\n", "dataset = dataset.batch(3).prefetch(1)\n", "for index, (X_batch, Y_batch) in enumerate(dataset):\n", " print(\"_\" * 20, \"Batch\", index, \"\\nX_batch\")\n", " print(X_batch.numpy())\n", " print(\"=\" * 5, \"\\nY_batch\")\n", " print(Y_batch.numpy())" ] }, { "cell_type": "markdown", "id": "66f0fd1a", "metadata": { "id": "EbFRieqqtv8W" }, "source": [ "## 데이터 로드하고 데이터셋 준비하기" ] }, { "cell_type": "code", "execution_count": 3, "id": "75d45464", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "KM9qs1gltv8W", "outputId": "cbb2edcb-2488-41d4-fbcd-4c6cbd173151" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Downloading data from https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt\n", "1122304/1115394 [==============================] - 0s 0us/step\n", "1130496/1115394 [==============================] - 0s 0us/step\n" ] } ], "source": [ "shakespeare_url = \"https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt\"\n", "filepath = keras.utils.get_file(\"shakespeare.txt\", shakespeare_url)\n", "with open(filepath) as f:\n", " shakespeare_text = f.read()" ] }, { "cell_type": "code", "execution_count": 4, "id": "e000dc59", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "TFN1oyNItv8W", "outputId": "cf2c3c6a-a9cf-422b-e370-72de5ad40c2a" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "First Citizen:\n", "Before we proceed any further, hear me speak.\n", "\n", "All:\n", "Speak, speak.\n", "\n", "First Citizen:\n", "You are all resolved rather to die than to famish?\n", "\n" ] } ], "source": [ "print(shakespeare_text[:148])" ] }, { "cell_type": "code", "execution_count": 5, "id": "ee31363f", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 35 }, "id": "aXtmJYzutv8X", "outputId": "252ea764-3b90-4606-8bb2-d96f1c5635b7" }, "outputs": [ { "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "\"\\n !$&',-.3:;?abcdefghijklmnopqrstuvwxyz\"" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "\"\".join(sorted(set(shakespeare_text.lower())))" ] }, { "cell_type": "code", "execution_count": 6, "id": "6311fe02", "metadata": { "id": "vR-d82zktv8X" }, "outputs": [], "source": [ "tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)\n", "tokenizer.fit_on_texts(shakespeare_text)" ] }, { "cell_type": "code", "execution_count": 7, "id": "ca3c5af5", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "z7Ew2ZqItv8X", "outputId": "b67db908-5b64-4752-f15b-8be09ac112ba" }, "outputs": [ { "data": { "text/plain": [ "[[20, 6, 9, 8, 3]]" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tokenizer.texts_to_sequences([\"First\"])" ] }, { "cell_type": "code", "execution_count": 8, "id": "3595c253", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "i2OqPgaetv8Y", "outputId": "3eb24a6e-72f4-4b5d-9195-8b5f260dfd23" }, "outputs": [ { "data": { "text/plain": [ "['f i r s t']" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])" ] }, { "cell_type": "code", "execution_count": 9, "id": "d37334ab", "metadata": { "id": "aZbH0t5Utv8Y" }, "outputs": [], "source": [ "max_id = len(tokenizer.word_index) # 고유한 문자 개수\n", "dataset_size = tokenizer.document_count # 전체 문자 개수" ] }, { "cell_type": "code", "execution_count": 10, "id": "f08a7b81", "metadata": { "id": "CHKUXWkZtv8Y" }, "outputs": [], "source": [ "[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1\n", "train_size = dataset_size * 90 // 100\n", "dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])" ] }, { "cell_type": "markdown", "id": "7cf02fc6", "metadata": { "id": "qpcJ1RMRtv8Y" }, "source": [ "**노트**: 예전 코드에서는 `dataset.repeat()`를 사용해 데이터셋을 무한하게 반복할 수 있게 만들고 나중에 `model.fit()` 메서드를 호출할 때 `steps_per_epoch` 매개변수를 지정했습니다. 텐서플로 버그 때문에 이렇게 해야 했지만 이제는 수정되었기 때문에 코드를 간단하게 만들 수 있습니다. `dataset.repeat()`와 `steps_per_epoch`가 더 이상 필요하지 않습니다." ] }, { "cell_type": "code", "execution_count": 11, "id": "6f6ad4fb", "metadata": { "id": "KbUR-r0etv8Y" }, "outputs": [], "source": [ "n_steps = 100\n", "window_length = n_steps + 1 # 타깃 = 한 글자 앞선 입력\n", "dataset = dataset.window(window_length, shift=1, drop_remainder=True)" ] }, { "cell_type": "code", "execution_count": 12, "id": "ff38a4a4", "metadata": { "id": "Ye9EnvsNtv8Z" }, "outputs": [], "source": [ "dataset = dataset.flat_map(lambda window: window.batch(window_length))" ] }, { "cell_type": "code", "execution_count": 13, "id": "2a2ceaa5", "metadata": { "id": "CgbRf_3Ttv8Z" }, "outputs": [], "source": [ "np.random.seed(42)\n", "tf.random.set_seed(42)" ] }, { "cell_type": "code", "execution_count": 14, "id": "cb3d6d8e", "metadata": { "id": "-1EhiiPTtv8Z" }, "outputs": [], "source": [ "batch_size = 32\n", "dataset = dataset.shuffle(10000).batch(batch_size)\n", "dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))" ] }, { "cell_type": "code", "execution_count": 15, "id": "462485af", "metadata": { "id": "rHvQY_f7tv8Z" }, "outputs": [], "source": [ "dataset = dataset.map(\n", " lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))" ] }, { "cell_type": "code", "execution_count": 16, "id": "a1b709be", "metadata": { "id": "_aN59dDXtv8Z" }, "outputs": [], "source": [ "dataset = dataset.prefetch(1)" ] }, { "cell_type": "code", "execution_count": 17, "id": "51e5581a", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "i8-oYF1Ytv8Z", "outputId": "90b6f4a1-c89a-4562-9fe8-191152ea1795" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(32, 100, 39) (32, 100)\n" ] } ], "source": [ "for X_batch, Y_batch in dataset.take(1):\n", " print(X_batch.shape, Y_batch.shape)" ] }, { "cell_type": "markdown", "id": "042cbd25", "metadata": { "id": "FHHzJwNvtv8Z" }, "source": [ "## 모델 만들고 훈련하기" ] }, { "cell_type": "markdown", "id": "cd4904be", "metadata": { "id": "ELzs38IHtv8a" }, "source": [ "**경고**: 다음 코드는 하드웨어에 따라 실행하는데 24시간이 걸릴 수 있습니다. GPU를 사용하면 1~2시간 정도 걸릴 수 있습니다." ] }, { "cell_type": "markdown", "id": "3e8b97b3", "metadata": { "id": "NrcuFoErtv8a" }, "source": [ "**노트**: `GRU` 클래스는 다음 매개변수에서 기본값을 사용할 때에만 GPU를 사용합니다: `activation`, `recurrent_activation`, `recurrent_dropout`, `unroll`, `use_bias` `reset_after`. 이 때문에 (책과는 달리) `recurrent_dropout=0.2`를 주석 처리했습니다." ] }, { "cell_type": "code", "execution_count": 18, "id": "00e77725", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "a9kyiPvKtv8a", "outputId": "70576ffc-d431-40e6-9af4-75dba89811c8" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/10\n", "31368/31368 [==============================] - 376s 12ms/step - loss: 1.6206\n", "Epoch 2/10\n", "31368/31368 [==============================] - 351s 11ms/step - loss: 1.5369\n", "Epoch 3/10\n", "31368/31368 [==============================] - 347s 11ms/step - loss: 1.5171\n", "Epoch 4/10\n", "31368/31368 [==============================] - 344s 11ms/step - loss: 1.5053\n", "Epoch 5/10\n", "31368/31368 [==============================] - 346s 11ms/step - loss: 1.4980\n", "Epoch 6/10\n", "31368/31368 [==============================] - 344s 11ms/step - loss: 1.4927\n", "Epoch 7/10\n", "31368/31368 [==============================] - 344s 11ms/step - loss: 1.4891\n", "Epoch 8/10\n", "31368/31368 [==============================] - 347s 11ms/step - loss: 1.4864\n", "Epoch 9/10\n", "31368/31368 [==============================] - 345s 11ms/step - loss: 1.4842\n", "Epoch 10/10\n", "31368/31368 [==============================] - 346s 11ms/step - loss: 1.4821\n" ] } ], "source": [ "model = keras.models.Sequential([\n", " keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],\n", " #dropout=0.2, recurrent_dropout=0.2),\n", " dropout=0.2),\n", " keras.layers.GRU(128, return_sequences=True,\n", " #dropout=0.2, recurrent_dropout=0.2),\n", " dropout=0.2),\n", " keras.layers.TimeDistributed(keras.layers.Dense(max_id,\n", " activation=\"softmax\"))\n", "])\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=\"adam\")\n", "history = model.fit(dataset, epochs=10)" ] }, { "cell_type": "markdown", "id": "e3e7da22", "metadata": { "id": "uRLSVGwNtv8a" }, "source": [ "## 모델로 텍스트 생성하기" ] }, { "cell_type": "code", "execution_count": 19, "id": "62eeb563", "metadata": { "id": "fIykIportv8a" }, "outputs": [], "source": [ "def preprocess(texts):\n", " X = np.array(tokenizer.texts_to_sequences(texts)) - 1\n", " return tf.one_hot(X, max_id)" ] }, { "cell_type": "markdown", "id": "05183a31", "metadata": { "id": "VFa0syKNtv8a" }, "source": [ "**경고**: `predict_classes()` 메서드는 deprecated 되었습니다. 대신 `np.argmax(model(X_new), axis=-1)`를 사용합니다." ] }, { "cell_type": "code", "execution_count": 20, "id": "df770bfb", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 35 }, "id": "TLQSphICtv8a", "outputId": "1a596e89-182b-456f-aa6a-cb1900ad9731" }, "outputs": [ { "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "'u'" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_new = preprocess([\"How are yo\"])\n", "#Y_pred = model.predict_classes(X_new)\n", "Y_pred = np.argmax(model(X_new), axis=-1)\n", "tokenizer.sequences_to_texts(Y_pred + 1)[0][-1] # 1st sentence, last char" ] }, { "cell_type": "code", "execution_count": 21, "id": "6c2e2cc2", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "70qpvyJotv8b", "outputId": "62a6d5ba-e080-4a6b-84de-893c880ae621" }, "outputs": [ { "data": { "text/plain": [ "array([[0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,\n", " 2, 0, 0, 1, 1, 1, 0, 0, 1, 2, 0, 0, 1, 1, 0, 0, 0, 0]])" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.random.set_seed(42)\n", "\n", "tf.random.categorical([[np.log(0.5), np.log(0.4), np.log(0.1)]], num_samples=40).numpy()" ] }, { "cell_type": "code", "execution_count": 22, "id": "83c9c123", "metadata": { "id": "9thNHN1rtv8b" }, "outputs": [], "source": [ "def next_char(text, temperature=1):\n", " X_new = preprocess([text])\n", " y_proba = model(X_new)[0, -1:, :]\n", " rescaled_logits = tf.math.log(y_proba) / temperature\n", " char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1\n", " return tokenizer.sequences_to_texts(char_id.numpy())[0]" ] }, { "cell_type": "code", "execution_count": 23, "id": "39a8cd2a", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 35 }, "id": "cn1DKcmXtv8b", "outputId": "39a9ca0a-f93f-40ba-cf23-b3e92f8091ec" }, "outputs": [ { "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "'u'" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.random.set_seed(42)\n", "\n", "next_char(\"How are yo\", temperature=1)" ] }, { "cell_type": "code", "execution_count": 24, "id": "32d914d1", "metadata": { "id": "wkCwbGritv8b" }, "outputs": [], "source": [ "def complete_text(text, n_chars=50, temperature=1):\n", " for _ in range(n_chars):\n", " text += next_char(text, temperature)\n", " return text" ] }, { "cell_type": "code", "execution_count": 25, "id": "d75a87fc", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "cbulJBostv8b", "outputId": "b6bd632c-a6ac-47e3-c9c6-94af9ae0e012" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "the maid in padua for my father is a stood\n", "and so m\n" ] } ], "source": [ "tf.random.set_seed(42)\n", "\n", "print(complete_text(\"t\", temperature=0.2))" ] }, { "cell_type": "code", "execution_count": 26, "id": "97272f80", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "f7mHvXartv8b", "outputId": "92f99ad1-32e8-4bee-99cb-fec63349b8ab" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "toke on advised in sobel countryman,\n", "and signior gr\n" ] } ], "source": [ "print(complete_text(\"t\", temperature=1))" ] }, { "cell_type": "code", "execution_count": 27, "id": "707ce7b4", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "eQ4bne4Ttv8b", "outputId": "7c4321dc-77e3-4cb2-de54-ed4ad1ece239" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "tpeniomently!\n", "well maze: yet 'pale deficuruli-faeem\n" ] } ], "source": [ "print(complete_text(\"t\", temperature=2))" ] }, { "cell_type": "markdown", "id": "4ef2101d", "metadata": { "id": "GJZt_KEttv8b" }, "source": [ "## 상태가 있는 RNN" ] }, { "cell_type": "code", "execution_count": 28, "id": "2bb73fa9", "metadata": { "id": "AmtuPKFutv8c" }, "outputs": [], "source": [ "tf.random.set_seed(42)" ] }, { "cell_type": "code", "execution_count": 29, "id": "bebc6ed0", "metadata": { "id": "01BB7utQtv8c" }, "outputs": [], "source": [ "dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])\n", "dataset = dataset.window(window_length, shift=n_steps, drop_remainder=True)\n", "dataset = dataset.flat_map(lambda window: window.batch(window_length))\n", "dataset = dataset.batch(1)\n", "dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))\n", "dataset = dataset.map(\n", " lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))\n", "dataset = dataset.prefetch(1)" ] }, { "cell_type": "code", "execution_count": 30, "id": "45c61599", "metadata": { "id": "DtmRl3Lktv8c" }, "outputs": [], "source": [ "batch_size = 32\n", "encoded_parts = np.array_split(encoded[:train_size], batch_size)\n", "datasets = []\n", "for encoded_part in encoded_parts:\n", " dataset = tf.data.Dataset.from_tensor_slices(encoded_part)\n", " dataset = dataset.window(window_length, shift=n_steps, drop_remainder=True)\n", " dataset = dataset.flat_map(lambda window: window.batch(window_length))\n", " datasets.append(dataset)\n", "dataset = tf.data.Dataset.zip(tuple(datasets)).map(lambda *windows: tf.stack(windows))\n", "dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))\n", "dataset = dataset.map(\n", " lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))\n", "dataset = dataset.prefetch(1)" ] }, { "cell_type": "markdown", "id": "afcb0c45", "metadata": { "id": "nIeQlIwDtv8c" }, "source": [ "**노트**: 여기에서도 GPU 가속을 위해 (책과 달리) `recurrent_dropout=0.2`을 주석 처리합니다." ] }, { "cell_type": "code", "execution_count": 31, "id": "4f2782da", "metadata": { "id": "Jtqxh8catv8c" }, "outputs": [], "source": [ "model = keras.models.Sequential([\n", " keras.layers.GRU(128, return_sequences=True, stateful=True,\n", " #dropout=0.2, recurrent_dropout=0.2,\n", " dropout=0.2,\n", " batch_input_shape=[batch_size, None, max_id]),\n", " keras.layers.GRU(128, return_sequences=True, stateful=True,\n", " #dropout=0.2, recurrent_dropout=0.2),\n", " dropout=0.2),\n", " keras.layers.TimeDistributed(keras.layers.Dense(max_id,\n", " activation=\"softmax\"))\n", "])" ] }, { "cell_type": "code", "execution_count": 32, "id": "0def17aa", "metadata": { "id": "W5R2Uowztv8c" }, "outputs": [], "source": [ "class ResetStatesCallback(keras.callbacks.Callback):\n", " def on_epoch_begin(self, epoch, logs):\n", " self.model.reset_states()" ] }, { "cell_type": "code", "execution_count": 33, "id": "15f7f89e", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "2U1RYYINtv8c", "outputId": "d8e6b02c-2b2c-47f0-d0d1-8e14a184d851" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/50\n", "313/313 [==============================] - 6s 12ms/step - loss: 2.6200\n", "Epoch 2/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 2.2410\n", "Epoch 3/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 2.1105\n", "Epoch 4/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 2.0368\n", "Epoch 5/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.9860\n", "Epoch 6/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.9488\n", "Epoch 7/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.9205\n", "Epoch 8/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8985\n", "Epoch 9/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8797\n", "Epoch 10/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8655\n", "Epoch 11/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8533\n", "Epoch 12/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8412\n", "Epoch 13/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.8328\n", "Epoch 14/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.8233\n", "Epoch 15/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.8160\n", "Epoch 16/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.8072\n", "Epoch 17/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.8008\n", "Epoch 18/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7936\n", "Epoch 19/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7885\n", "Epoch 20/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7851\n", "Epoch 21/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7814\n", "Epoch 22/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7760\n", "Epoch 23/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7729\n", "Epoch 24/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7697\n", "Epoch 25/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7645\n", "Epoch 26/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7606\n", "Epoch 27/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7584\n", "Epoch 28/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7564\n", "Epoch 29/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7538\n", "Epoch 30/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7496\n", "Epoch 31/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7470\n", "Epoch 32/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7455\n", "Epoch 33/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7432\n", "Epoch 34/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7408\n", "Epoch 35/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7376\n", "Epoch 36/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7363\n", "Epoch 37/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7343\n", "Epoch 38/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7308\n", "Epoch 39/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7286\n", "Epoch 40/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7284\n", "Epoch 41/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7269\n", "Epoch 42/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7252\n", "Epoch 43/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7233\n", "Epoch 44/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7233\n", "Epoch 45/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7222\n", "Epoch 46/50\n", "313/313 [==============================] - 4s 11ms/step - loss: 1.7193\n", "Epoch 47/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7181\n", "Epoch 48/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7175\n", "Epoch 49/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7146\n", "Epoch 50/50\n", "313/313 [==============================] - 4s 12ms/step - loss: 1.7138\n" ] } ], "source": [ "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=\"adam\")\n", "history = model.fit(dataset, epochs=50,\n", " callbacks=[ResetStatesCallback()])" ] }, { "cell_type": "markdown", "id": "c5e9c9a9", "metadata": { "id": "2RGPpbcGtv8c" }, "source": [ "모델에 다른 크기의 배치를 사용하려면 상태가 없는 복사본을 만들어야 합니다. 드롭아웃은 훈련에만 사용되기 때문에 삭제합니다:" ] }, { "cell_type": "code", "execution_count": 34, "id": "a775bb00", "metadata": { "id": "IIC90vH0tv8c" }, "outputs": [], "source": [ "stateless_model = keras.models.Sequential([\n", " keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id]),\n", " keras.layers.GRU(128, return_sequences=True),\n", " keras.layers.TimeDistributed(keras.layers.Dense(max_id,\n", " activation=\"softmax\"))\n", "])" ] }, { "cell_type": "markdown", "id": "8fce084d", "metadata": { "id": "-OI31vj-tv8d" }, "source": [ "가중치를 복사하려면 먼저 (가중치를 만들기 위해) 모델을 빌드합니다:" ] }, { "cell_type": "code", "execution_count": 35, "id": "c486cb8b", "metadata": { "id": "egRIiYQ5tv8d" }, "outputs": [], "source": [ "stateless_model.build(tf.TensorShape([None, None, max_id]))" ] }, { "cell_type": "code", "execution_count": 36, "id": "7f486dc3", "metadata": { "id": "lrb3Fe3ntv8d" }, "outputs": [], "source": [ "stateless_model.set_weights(model.get_weights())\n", "model = stateless_model" ] }, { "cell_type": "code", "execution_count": 37, "id": "029ef270", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Ak3Kbakbtv8d", "outputId": "755df3e9-8c69-4f68-937c-b001fb9618a5" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "thing idsumper your shint.\n", "why, he has go too stone\n" ] } ], "source": [ "tf.random.set_seed(42)\n", "\n", "print(complete_text(\"t\"))" ] }, { "cell_type": "markdown", "id": "b06bf9e8", "metadata": { "id": "7MwWEzGatv8d" }, "source": [ "# 감성 분석" ] }, { "cell_type": "code", "execution_count": 38, "id": "076c2329", "metadata": { "id": "xq2e8DSctv8d" }, "outputs": [], "source": [ "tf.random.set_seed(42)" ] }, { "cell_type": "markdown", "id": "d8a8c372", "metadata": { "id": "ZNmhfUTmtv8d" }, "source": [ "IMDB 데이터셋을 로드합니다:" ] }, { "cell_type": "code", "execution_count": 39, "id": "4dcf544f", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "qE1O3ctLtv8d", "outputId": "f1443ccb-7adf-45aa-d0fb-697b2c5c950d" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz\n", "17465344/17464789 [==============================] - 0s 0us/step\n", "17473536/17464789 [==============================] - 0s 0us/step\n" ] } ], "source": [ "(X_train, y_train), (X_test, y_test) = keras.datasets.imdb.load_data()" ] }, { "cell_type": "code", "execution_count": 40, "id": "547259ca", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "2po-SjZLtv8d", "outputId": "6af47e1b-703b-4cfe-9ff2-400f006ca477" }, "outputs": [ { "data": { "text/plain": [ "[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65]" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[0][:10]" ] }, { "cell_type": "code", "execution_count": 41, "id": "8a7b290c", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 87 }, "id": "gJhVZdrDtv8d", "outputId": "10f0ba39-10af-4f75-ce28-5996234bb35a" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json\n", "1646592/1641221 [==============================] - 0s 0us/step\n", "1654784/1641221 [==============================] - 0s 0us/step\n" ] }, { "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "' this film was just brilliant casting location scenery story'" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "word_index = keras.datasets.imdb.get_word_index()\n", "id_to_word = {id_ + 3: word for word, id_ in word_index.items()}\n", "for id_, token in enumerate((\"\", \"\", \"\")):\n", " id_to_word[id_] = token\n", "\" \".join([id_to_word[id_] for id_ in X_train[0][:10]])" ] }, { "cell_type": "code", "execution_count": 42, "id": "7956347a", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 314, "referenced_widgets": [ "b72961c5f20144f1b6a5fb4ee8f229c0", "d25b97937c34400dbec01634f50903ce", "a9e3740391834a0ab6323769f87fabde", "ed245df63f5e45be93ba69845d938f1f", "8c5416cc97414dd683f02251c8e9e84e", "12d54c3d7f6b4b649fb91903ea237b46", "c4e1ce8cec7c40d1ad6f64ca065f061a", "aac6f05b44f34c32937bda7bcdc230f9" ] }, "id": "pRN6EmIetv8e", "outputId": "b61195cf-5b6f-4441-f982-38ce0a9f410e" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\u001b[1mDownloading and preparing dataset imdb_reviews/plain_text/1.0.0 (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0...\u001b[0m\n" ] }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "b72961c5f20144f1b6a5fb4ee8f229c0", "version_major": 2, "version_minor": 0 }, "text/plain": [ "Dl Completed...: 0 url [00:00, ? url/s]" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "d25b97937c34400dbec01634f50903ce", "version_major": 2, "version_minor": 0 }, "text/plain": [ "Dl Size...: 0 MiB [00:00, ? MiB/s]" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n" ] }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "a9e3740391834a0ab6323769f87fabde", "version_major": 2, "version_minor": 0 }, "text/plain": [ "0 examples [00:00, ? examples/s]" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "Shuffling and writing examples to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0.incompleteAII20M/imdb_reviews-train.tfrecord\n" ] }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "ed245df63f5e45be93ba69845d938f1f", "version_major": 2, "version_minor": 0 }, "text/plain": [ " 0%| | 0/25000 [00:00\", b\" \")\n", " X_batch = tf.strings.regex_replace(X_batch, b\"[^a-zA-Z']\", b\" \")\n", " X_batch = tf.strings.split(X_batch)\n", " return X_batch.to_tensor(default_value=b\"\"), y_batch" ] }, { "cell_type": "code", "execution_count": 48, "id": "16258097", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "IeH4S4n_tv8e", "outputId": "c8b1931e-b4ed-49fb-f2ce-b857f833b9f6" }, "outputs": [ { "data": { "text/plain": [ "(', b'', b''],\n", " [b'I', b'have', b'been', b'known', b'to', b'fall', b'asleep',\n", " b'during', b'films', b'but', b'this', b'is', b'usually', b'due',\n", " b'to', b'a', b'combination', b'of', b'things', b'including',\n", " b'really', b'tired', b'being', b'warm', b'and', b'comfortable',\n", " b'on', b'the', b'sette', b'and', b'having', b'just', b'eaten',\n", " b'a', b'lot', b'However', b'on', b'this', b'occasion', b'I',\n", " b'fell', b'asleep', b'because', b'the', b'film', b'was',\n", " b'rubbish', b'The', b'plot', b'development', b'was', b'constant',\n", " b'Cons']], dtype=object)>,\n", " )" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "preprocess(X_batch, y_batch)" ] }, { "cell_type": "code", "execution_count": 49, "id": "0a748c2d", "metadata": { "id": "cw1ZWHX8tv8e" }, "outputs": [], "source": [ "from collections import Counter\n", "\n", "vocabulary = Counter()\n", "for X_batch, y_batch in datasets[\"train\"].batch(32).map(preprocess):\n", " for review in X_batch:\n", " vocabulary.update(list(review.numpy()))" ] }, { "cell_type": "code", "execution_count": 50, "id": "4cf3bc0b", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "JoYwyBIMtv8e", "outputId": "7b10f55f-3f8d-4656-a9e1-00bf7fce01dc" }, "outputs": [ { "data": { "text/plain": [ "[(b'', 214309), (b'the', 61137), (b'a', 38564)]" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "vocabulary.most_common()[:3]" ] }, { "cell_type": "code", "execution_count": 51, "id": "be1fd3a8", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "rpGTjDvatv8e", "outputId": "452db943-1c98-4e00-8fb8-811279288388" }, "outputs": [ { "data": { "text/plain": [ "53893" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(vocabulary)" ] }, { "cell_type": "code", "execution_count": 52, "id": "1fdb3e71", "metadata": { "id": "MIfThoO3tv8f" }, "outputs": [], "source": [ "vocab_size = 10000\n", "truncated_vocabulary = [\n", " word for word, count in vocabulary.most_common()[:vocab_size]]" ] }, { "cell_type": "code", "execution_count": 53, "id": "42fd3686", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "UabK1uOdtv8f", "outputId": "5ee62e80-8798-4d76-b9dd-0570f0c24cf1" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "22\n", "12\n", "11\n", "10000\n" ] } ], "source": [ "word_to_id = {word: index for index, word in enumerate(truncated_vocabulary)}\n", "for word in b\"This movie was faaaaaantastic\".split():\n", " print(word_to_id.get(word) or vocab_size)" ] }, { "cell_type": "code", "execution_count": 54, "id": "6f76b211", "metadata": { "id": "Yh3rF3SZtv8f" }, "outputs": [], "source": [ "words = tf.constant(truncated_vocabulary)\n", "word_ids = tf.range(len(truncated_vocabulary), dtype=tf.int64)\n", "vocab_init = tf.lookup.KeyValueTensorInitializer(words, word_ids)\n", "num_oov_buckets = 1000\n", "table = tf.lookup.StaticVocabularyTable(vocab_init, num_oov_buckets)" ] }, { "cell_type": "code", "execution_count": 55, "id": "48c6a4e0", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "fFlaVVEstv8f", "outputId": "90bdde22-d10f-4922-f05b-8c3f503570c4" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "table.lookup(tf.constant([b\"This movie was faaaaaantastic\".split()]))" ] }, { "cell_type": "code", "execution_count": 56, "id": "b6537306", "metadata": { "id": "BPwxwEELtv8f" }, "outputs": [], "source": [ "def encode_words(X_batch, y_batch):\n", " return table.lookup(X_batch), y_batch\n", "\n", "train_set = datasets[\"train\"].batch(32).map(preprocess)\n", "train_set = train_set.map(encode_words).prefetch(1)" ] }, { "cell_type": "code", "execution_count": 57, "id": "8788b5a5", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "wICjZfKItv8f", "outputId": "a812a24d-7bba-438d-9dc0-f9f247c66209" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "tf.Tensor(\n", "[[ 22 11 28 ... 0 0 0]\n", " [ 6 21 70 ... 0 0 0]\n", " [4099 6881 1 ... 0 0 0]\n", " ...\n", " [ 22 12 118 ... 331 1047 0]\n", " [1757 4101 451 ... 0 0 0]\n", " [3365 4392 6 ... 0 0 0]], shape=(32, 60), dtype=int64)\n", "tf.Tensor([0 0 0 1 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0 1 1 1 1 1 0 0 0 1 0 0 0], shape=(32,), dtype=int64)\n" ] } ], "source": [ "for X_batch, y_batch in train_set.take(1):\n", " print(X_batch)\n", " print(y_batch)" ] }, { "cell_type": "code", "execution_count": 58, "id": "393f8840", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "0KFA5SeTtv8f", "outputId": "b0eecf4d-3a55-480b-da8b-91b53a6f9ad0" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/5\n", "782/782 [==============================] - 18s 16ms/step - loss: 0.5305 - accuracy: 0.7281\n", "Epoch 2/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.3459 - accuracy: 0.8549\n", "Epoch 3/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1934 - accuracy: 0.9313\n", "Epoch 4/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1361 - accuracy: 0.9503\n", "Epoch 5/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1032 - accuracy: 0.9634\n" ] } ], "source": [ "embed_size = 128\n", "model = keras.models.Sequential([\n", " keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size,\n", " mask_zero=True, # not shown in the book\n", " input_shape=[None]),\n", " keras.layers.GRU(128, return_sequences=True),\n", " keras.layers.GRU(128),\n", " keras.layers.Dense(1, activation=\"sigmoid\")\n", "])\n", "model.compile(loss=\"binary_crossentropy\", optimizer=\"adam\", metrics=[\"accuracy\"])\n", "history = model.fit(train_set, epochs=5)" ] }, { "cell_type": "markdown", "id": "1f2bfd2c", "metadata": { "id": "3-uiKuVCtv8f" }, "source": [ "또는 직접 마스킹을 합니다:" ] }, { "cell_type": "code", "execution_count": 59, "id": "ce3b9722", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "IKeLuilwtv8f", "outputId": "ecd605d0-2c7c-4b98-fe0f-dda222955e22" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/5\n", "782/782 [==============================] - 18s 15ms/step - loss: 0.5426 - accuracy: 0.7156\n", "Epoch 2/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.3469 - accuracy: 0.8572\n", "Epoch 3/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1753 - accuracy: 0.9384\n", "Epoch 4/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1274 - accuracy: 0.9542\n", "Epoch 5/5\n", "782/782 [==============================] - 12s 16ms/step - loss: 0.1131 - accuracy: 0.9577\n" ] } ], "source": [ "K = keras.backend\n", "embed_size = 128\n", "inputs = keras.layers.Input(shape=[None])\n", "mask = keras.layers.Lambda(lambda inputs: K.not_equal(inputs, 0))(inputs)\n", "z = keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size)(inputs)\n", "z = keras.layers.GRU(128, return_sequences=True)(z, mask=mask)\n", "z = keras.layers.GRU(128)(z, mask=mask)\n", "outputs = keras.layers.Dense(1, activation=\"sigmoid\")(z)\n", "model = keras.models.Model(inputs=[inputs], outputs=[outputs])\n", "model.compile(loss=\"binary_crossentropy\", optimizer=\"adam\", metrics=[\"accuracy\"])\n", "history = model.fit(train_set, epochs=5)" ] }, { "cell_type": "markdown", "id": "5c9e9b70", "metadata": { "id": "GeY3V219tv8f" }, "source": [ "## 사전 훈련된 임베딩 재사용하기" ] }, { "cell_type": "code", "execution_count": 60, "id": "7f8488b6", "metadata": { "id": "lxi2b-FItv8f" }, "outputs": [], "source": [ "tf.random.set_seed(42)" ] }, { "cell_type": "code", "execution_count": 61, "id": "bd5f3380", "metadata": { "id": "w9fLTsxbtv8g" }, "outputs": [], "source": [ "TFHUB_CACHE_DIR = os.path.join(os.curdir, \"my_tfhub_cache\")\n", "os.environ[\"TFHUB_CACHE_DIR\"] = TFHUB_CACHE_DIR" ] }, { "cell_type": "code", "execution_count": 62, "id": "6cb7be34", "metadata": { "id": "jexBicYjtv8g" }, "outputs": [], "source": [ "import tensorflow_hub as hub\n", "\n", "model = keras.Sequential([\n", " hub.KerasLayer(\"https://tfhub.dev/google/tf2-preview/nnlm-en-dim50/1\",\n", " dtype=tf.string, input_shape=[], output_shape=[50]),\n", " keras.layers.Dense(128, activation=\"relu\"),\n", " keras.layers.Dense(1, activation=\"sigmoid\")\n", "])\n", "model.compile(loss=\"binary_crossentropy\", optimizer=\"adam\",\n", " metrics=[\"accuracy\"])" ] }, { "cell_type": "code", "execution_count": 63, "id": "1f8070df", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "SpaomKpntv8g", "outputId": "3dcf8083-ad29-41c0-bb41-e932f7fa4ec3" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "./my_tfhub_cache/82c4aaf4250ffb09088bd48368ee7fd00e5464fe.descriptor.txt\n", "./my_tfhub_cache/82c4aaf4250ffb09088bd48368ee7fd00e5464fe/saved_model.pb\n", "./my_tfhub_cache/82c4aaf4250ffb09088bd48368ee7fd00e5464fe/assets/tokens.txt\n", "./my_tfhub_cache/82c4aaf4250ffb09088bd48368ee7fd00e5464fe/variables/variables.index\n", "./my_tfhub_cache/82c4aaf4250ffb09088bd48368ee7fd00e5464fe/variables/variables.data-00000-of-00001\n" ] } ], "source": [ "for dirpath, dirnames, filenames in os.walk(TFHUB_CACHE_DIR):\n", " for filename in filenames:\n", " print(os.path.join(dirpath, filename))" ] }, { "cell_type": "code", "execution_count": 64, "id": "f98b1bb1", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Ppj3seNEtv8g", "outputId": "ff9d3978-83c4-4fad-be8b-3ee8ea063a75" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/5\n", "782/782 [==============================] - 5s 5ms/step - loss: 0.5461 - accuracy: 0.7267\n", "Epoch 2/5\n", "782/782 [==============================] - 4s 5ms/step - loss: 0.5130 - accuracy: 0.7495\n", "Epoch 3/5\n", "782/782 [==============================] - 4s 5ms/step - loss: 0.5081 - accuracy: 0.7532\n", "Epoch 4/5\n", "782/782 [==============================] - 4s 5ms/step - loss: 0.5047 - accuracy: 0.7540\n", "Epoch 5/5\n", "782/782 [==============================] - 4s 5ms/step - loss: 0.5018 - accuracy: 0.7566\n" ] } ], "source": [ "import tensorflow_datasets as tfds\n", "\n", "datasets, info = tfds.load(\"imdb_reviews\", as_supervised=True, with_info=True)\n", "train_size = info.splits[\"train\"].num_examples\n", "batch_size = 32\n", "train_set = datasets[\"train\"].batch(batch_size).prefetch(1)\n", "history = model.fit(train_set, epochs=5)" ] }, { "cell_type": "markdown", "id": "80ea9b31", "metadata": { "id": "mtmrsDqktv8g" }, "source": [ "## 자동 번역" ] }, { "cell_type": "code", "execution_count": 65, "id": "872e3ad9", "metadata": { "id": "gftP5fRYtv8g" }, "outputs": [], "source": [ "tf.random.set_seed(42)" ] }, { "cell_type": "code", "execution_count": 66, "id": "4bd4c880", "metadata": { "id": "4ZvWFTXwtv8g" }, "outputs": [], "source": [ "vocab_size = 100\n", "embed_size = 10" ] }, { "cell_type": "code", "execution_count": 67, "id": "6cf28144", "metadata": { "id": "B5rC-V6htv8g" }, "outputs": [], "source": [ "import tensorflow_addons as tfa\n", "\n", "encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "sequence_lengths = keras.layers.Input(shape=[], dtype=np.int32)\n", "\n", "embeddings = keras.layers.Embedding(vocab_size, embed_size)\n", "encoder_embeddings = embeddings(encoder_inputs)\n", "decoder_embeddings = embeddings(decoder_inputs)\n", "\n", "encoder = keras.layers.LSTM(512, return_state=True)\n", "encoder_outputs, state_h, state_c = encoder(encoder_embeddings)\n", "encoder_state = [state_h, state_c]\n", "\n", "sampler = tfa.seq2seq.sampler.TrainingSampler()\n", "\n", "decoder_cell = keras.layers.LSTMCell(512)\n", "output_layer = keras.layers.Dense(vocab_size)\n", "decoder = tfa.seq2seq.basic_decoder.BasicDecoder(decoder_cell, sampler,\n", " output_layer=output_layer)\n", "final_outputs, final_state, final_sequence_lengths = decoder(\n", " decoder_embeddings, initial_state=encoder_state,\n", " sequence_length=sequence_lengths)\n", "Y_proba = tf.nn.softmax(final_outputs.rnn_output)\n", "\n", "model = keras.models.Model(\n", " inputs=[encoder_inputs, decoder_inputs, sequence_lengths],\n", " outputs=[Y_proba])" ] }, { "cell_type": "code", "execution_count": 68, "id": "87b830b3", "metadata": { "id": "CLuhwZXDtv8g" }, "outputs": [], "source": [ "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=\"adam\")" ] }, { "cell_type": "code", "execution_count": 69, "id": "a50cce6e", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "GpqD3sHUtv8g", "outputId": "903a8ab1-ba5d-4e53-fb71-d25b805b0d3b" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/2\n", "32/32 [==============================] - 4s 36ms/step - loss: 4.6054\n", "Epoch 2/2\n", "32/32 [==============================] - 1s 35ms/step - loss: 4.6031\n" ] } ], "source": [ "X = np.random.randint(100, size=10*1000).reshape(1000, 10)\n", "Y = np.random.randint(100, size=15*1000).reshape(1000, 15)\n", "X_decoder = np.c_[np.zeros((1000, 1)), Y[:, :-1]]\n", "seq_lengths = np.full([1000], 15)\n", "\n", "history = model.fit([X, X_decoder, seq_lengths], Y, epochs=2)" ] }, { "cell_type": "markdown", "id": "c379fb7f", "metadata": { "id": "gv-dSC0Rtv8g" }, "source": [ "### 양방향 순환층" ] }, { "cell_type": "code", "execution_count": 70, "id": "0e887f00", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "xVx_rQsPtv8g", "outputId": "6daed4f9-8fe4-4058-84cf-a2513b875183" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Model: \"sequential_5\"\n", "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "gru_10 (GRU) (None, None, 10) 660 \n", "_________________________________________________________________\n", "bidirectional (Bidirectional (None, None, 20) 1320 \n", "=================================================================\n", "Total params: 1,980\n", "Trainable params: 1,980\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "model = keras.models.Sequential([\n", " keras.layers.GRU(10, return_sequences=True, input_shape=[None, 10]),\n", " keras.layers.Bidirectional(keras.layers.GRU(10, return_sequences=True))\n", "])\n", "\n", "model.summary()" ] }, { "cell_type": "markdown", "id": "0346832d", "metadata": { "id": "QdIRt3CNtv8h" }, "source": [ "### 위치 인코딩" ] }, { "cell_type": "code", "execution_count": 71, "id": "f4e3d474", "metadata": { "id": "XiCUANCAtv8h" }, "outputs": [], "source": [ "class PositionalEncoding(keras.layers.Layer):\n", " def __init__(self, max_steps, max_dims, dtype=tf.float32, **kwargs):\n", " super().__init__(dtype=dtype, **kwargs)\n", " if max_dims % 2 == 1: max_dims += 1 # max_dims must be even\n", " p, i = np.meshgrid(np.arange(max_steps), np.arange(max_dims // 2))\n", " pos_emb = np.empty((1, max_steps, max_dims))\n", " pos_emb[0, :, ::2] = np.sin(p / 10000**(2 * i / max_dims)).T\n", " pos_emb[0, :, 1::2] = np.cos(p / 10000**(2 * i / max_dims)).T\n", " self.positional_embedding = tf.constant(pos_emb.astype(self.dtype))\n", " def call(self, inputs):\n", " shape = tf.shape(inputs)\n", " return inputs + self.positional_embedding[:, :shape[-2], :shape[-1]]" ] }, { "cell_type": "code", "execution_count": 72, "id": "aa3798f0", "metadata": { "id": "TSqp0L4Xtv8h" }, "outputs": [], "source": [ "max_steps = 201\n", "max_dims = 512\n", "pos_emb = PositionalEncoding(max_steps, max_dims)\n", "PE = pos_emb(np.zeros((1, max_steps, max_dims), np.float32))[0].numpy()" ] }, { "cell_type": "code", "execution_count": 73, "id": "fa421845", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 386 }, "id": "JNQMosdrtv8h", "outputId": "b99d8a09-a555-493d-9193-732bb3a7301b" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Saving figure positional_embedding_plot\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "i1, i2, crop_i = 100, 101, 150\n", "p1, p2, p3 = 22, 60, 35\n", "fig, (ax1, ax2) = plt.subplots(nrows=2, ncols=1, sharex=True, figsize=(9, 5))\n", "ax1.plot([p1, p1], [-1, 1], \"k--\", label=\"$p = {}$\".format(p1))\n", "ax1.plot([p2, p2], [-1, 1], \"k--\", label=\"$p = {}$\".format(p2), alpha=0.5)\n", "ax1.plot(p3, PE[p3, i1], \"bx\", label=\"$p = {}$\".format(p3))\n", "ax1.plot(PE[:,i1], \"b-\", label=\"$i = {}$\".format(i1))\n", "ax1.plot(PE[:,i2], \"r-\", label=\"$i = {}$\".format(i2))\n", "ax1.plot([p1, p2], [PE[p1, i1], PE[p2, i1]], \"bo\")\n", "ax1.plot([p1, p2], [PE[p1, i2], PE[p2, i2]], \"ro\")\n", "ax1.legend(loc=\"center right\", fontsize=14, framealpha=0.95)\n", "ax1.set_ylabel(\"$P_{(p,i)}$\", rotation=0, fontsize=16)\n", "ax1.grid(True, alpha=0.3)\n", "ax1.hlines(0, 0, max_steps - 1, color=\"k\", linewidth=1, alpha=0.3)\n", "ax1.axis([0, max_steps - 1, -1, 1])\n", "ax2.imshow(PE.T[:crop_i], cmap=\"gray\", interpolation=\"bilinear\", aspect=\"auto\")\n", "ax2.hlines(i1, 0, max_steps - 1, color=\"b\")\n", "cheat = 2 # need to raise the red line a bit, or else it hides the blue one\n", "ax2.hlines(i2+cheat, 0, max_steps - 1, color=\"r\")\n", "ax2.plot([p1, p1], [0, crop_i], \"k--\")\n", "ax2.plot([p2, p2], [0, crop_i], \"k--\", alpha=0.5)\n", "ax2.plot([p1, p2], [i2+cheat, i2+cheat], \"ro\")\n", "ax2.plot([p1, p2], [i1, i1], \"bo\")\n", "ax2.axis([0, max_steps - 1, 0, crop_i])\n", "ax2.set_xlabel(\"$p$\", fontsize=16)\n", "ax2.set_ylabel(\"$i$\", rotation=0, fontsize=16)\n", "save_fig(\"positional_embedding_plot\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 74, "id": "3b7ee909", "metadata": { "id": "wLUQDsVOtv8h" }, "outputs": [], "source": [ "embed_size = 512; max_steps = 500; vocab_size = 10000\n", "encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "embeddings = keras.layers.Embedding(vocab_size, embed_size)\n", "encoder_embeddings = embeddings(encoder_inputs)\n", "decoder_embeddings = embeddings(decoder_inputs)\n", "positional_encoding = PositionalEncoding(max_steps, max_dims=embed_size)\n", "encoder_in = positional_encoding(encoder_embeddings)\n", "decoder_in = positional_encoding(decoder_embeddings)" ] }, { "cell_type": "markdown", "id": "614ad69e", "metadata": { "id": "kkXbid7xtv8h" }, "source": [ "다음은 (매우) 간소화한 Transformer입니다(실제 구조는 스킵 연결, 층 정규화, 밀집 층 그리고 가장 중요하게 일반적인 어텐션이 아니라 멀티-헤드 어텐션을 가집니다):" ] }, { "cell_type": "code", "execution_count": 75, "id": "1dc2364e", "metadata": { "id": "KMNOJwcKtv8h" }, "outputs": [], "source": [ "Z = encoder_in\n", "for N in range(6):\n", " Z = keras.layers.Attention(use_scale=True)([Z, Z])\n", "\n", "encoder_outputs = Z\n", "Z = decoder_in\n", "for N in range(6):\n", " Z = keras.layers.Attention(use_scale=True, causal=True)([Z, Z])\n", " Z = keras.layers.Attention(use_scale=True)([Z, encoder_outputs])\n", "\n", "outputs = keras.layers.TimeDistributed(\n", " keras.layers.Dense(vocab_size, activation=\"softmax\"))(Z)" ] }, { "cell_type": "markdown", "id": "b16908dd", "metadata": { "id": "4ORq4ECstv8h" }, "source": [ "다음은 기본적인 `MultiHeadAttention` 층의 구현입니다. 가까운 시일 내에 `keras.layers`에 추가될 것 같습니다. `kernel_size=1`인 (그리고 기본값 `padding=\"valid\"`, `strides=1`을 사용하는) `Conv1D` 층은 `TimeDistributed(Dense(...))`과 같습니다." ] }, { "cell_type": "code", "execution_count": 76, "id": "63da8470", "metadata": { "id": "I5LYzX1Qtv8h" }, "outputs": [], "source": [ "K = keras.backend\n", "\n", "class MultiHeadAttention(keras.layers.Layer):\n", " def __init__(self, n_heads, causal=False, use_scale=False, **kwargs):\n", " self.n_heads = n_heads\n", " self.causal = causal\n", " self.use_scale = use_scale\n", " super().__init__(**kwargs)\n", " def build(self, batch_input_shape):\n", " self.dims = batch_input_shape[0][-1]\n", " self.q_dims, self.v_dims, self.k_dims = [self.dims // self.n_heads] * 3 # could be hyperparameters instead\n", " self.q_linear = keras.layers.Conv1D(self.n_heads * self.q_dims, kernel_size=1, use_bias=False)\n", " self.v_linear = keras.layers.Conv1D(self.n_heads * self.v_dims, kernel_size=1, use_bias=False)\n", " self.k_linear = keras.layers.Conv1D(self.n_heads * self.k_dims, kernel_size=1, use_bias=False)\n", " self.attention = keras.layers.Attention(causal=self.causal, use_scale=self.use_scale)\n", " self.out_linear = keras.layers.Conv1D(self.dims, kernel_size=1, use_bias=False)\n", " super().build(batch_input_shape)\n", " def _multi_head_linear(self, inputs, linear):\n", " shape = K.concatenate([K.shape(inputs)[:-1], [self.n_heads, -1]])\n", " projected = K.reshape(linear(inputs), shape)\n", " perm = K.permute_dimensions(projected, [0, 2, 1, 3])\n", " return K.reshape(perm, [shape[0] * self.n_heads, shape[1], -1])\n", " def call(self, inputs):\n", " q = inputs[0]\n", " v = inputs[1]\n", " k = inputs[2] if len(inputs) > 2 else v\n", " shape = K.shape(q)\n", " q_proj = self._multi_head_linear(q, self.q_linear)\n", " v_proj = self._multi_head_linear(v, self.v_linear)\n", " k_proj = self._multi_head_linear(k, self.k_linear)\n", " multi_attended = self.attention([q_proj, v_proj, k_proj])\n", " shape_attended = K.shape(multi_attended)\n", " reshaped_attended = K.reshape(multi_attended, [shape[0], self.n_heads, shape_attended[1], shape_attended[2]])\n", " perm = K.permute_dimensions(reshaped_attended, [0, 2, 1, 3])\n", " concat = K.reshape(perm, [shape[0], shape_attended[1], -1])\n", " return self.out_linear(concat)" ] }, { "cell_type": "code", "execution_count": 77, "id": "65951068", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "OrDV_52Ntv8h", "outputId": "19b1c5b5-87ec-48f4-c66e-5a403a090028" }, "outputs": [ { "data": { "text/plain": [ "TensorShape([2, 50, 512])" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "Q = np.random.rand(2, 50, 512)\n", "V = np.random.rand(2, 80, 512)\n", "multi_attn = MultiHeadAttention(8)\n", "multi_attn([Q, V]).shape" ] }, { "cell_type": "markdown", "id": "85a7310e", "metadata": { "id": "ql_LgBBXtv8i" }, "source": [ "# 연습문제 해답" ] }, { "cell_type": "markdown", "id": "346ed29a", "metadata": { "id": "gVxTeZyYtv8i" }, "source": [ "## 1. to 7." ] }, { "cell_type": "markdown", "id": "24b89983", "metadata": { "id": "a0CiD550tv8i" }, "source": [ "부록 A 참조" ] }, { "cell_type": "markdown", "id": "72ca6598", "metadata": { "id": "2dul3AEmtv8i" }, "source": [ "## 8.\n", "_연습문제: 호크라이터와 슈미트후버는 LSTM에 관한 [논문](https://homl.info/93)에서 임베딩된 레버 문법을 사용했습니다. 이는 ‘BPBTSXXVPSEPE’와 같은 문자열을 만드는 인공 문법입니다. 이 주제에 대한 제니 오어의 훌륭한 소개(https://homl.info/108)를 확인해보세요. 특정 임베딩된 레버 문법 하나를 선택하고(제니 오어의 페이지에 있는 것과 같은), 그다음에 문자열이 이 문법을 따르는지 아닌지 구별하는 RNN을 훈련해보세요. 먼저 문법에 맞는 문자열 50%와 그렇지 않은 문자열 50%를 담은 훈련 배치를 생성하는 함수를 만들어야 합니다._" ] }, { "cell_type": "markdown", "id": "5f16d3c5", "metadata": { "id": "JQKIcaNOtv8i" }, "source": [ "먼저 문법에 맞는 문자열을 생성하는 함수가 필요합니다. 이 문법은 각 상태에서 가능한 전이 상태의 리스트입니다. 하나의 전이는 출력할 문자열(또는 생성할 문법)과 다음 상태를 지정합니다." ] }, { "cell_type": "code", "execution_count": 78, "id": "f814720d", "metadata": { "id": "zAPnSnshtv8i" }, "outputs": [], "source": [ "default_reber_grammar = [\n", " [(\"B\", 1)], # (state 0) =B=>(state 1)\n", " [(\"T\", 2), (\"P\", 3)], # (state 1) =T=>(state 2) or =P=>(state 3)\n", " [(\"S\", 2), (\"X\", 4)], # (state 2) =S=>(state 2) or =X=>(state 4)\n", " [(\"T\", 3), (\"V\", 5)], # and so on...\n", " [(\"X\", 3), (\"S\", 6)],\n", " [(\"P\", 4), (\"V\", 6)],\n", " [(\"E\", None)]] # (state 6) =E=>(terminal state)\n", "\n", "embedded_reber_grammar = [\n", " [(\"B\", 1)],\n", " [(\"T\", 2), (\"P\", 3)],\n", " [(default_reber_grammar, 4)],\n", " [(default_reber_grammar, 5)],\n", " [(\"T\", 6)],\n", " [(\"P\", 6)],\n", " [(\"E\", None)]]\n", "\n", "def generate_string(grammar):\n", " state = 0\n", " output = []\n", " while state is not None:\n", " index = np.random.randint(len(grammar[state]))\n", " production, state = grammar[state][index]\n", " if isinstance(production, list):\n", " production = generate_string(grammar=production)\n", " output.append(production)\n", " return \"\".join(output)" ] }, { "cell_type": "markdown", "id": "e307eea4", "metadata": { "id": "nC0EgwRttv8i" }, "source": [ "기본 레버 문법에 맞는 문자열을 몇 개 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 79, "id": "7e72b3de", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "rAdE926Htv8i", "outputId": "5622b6b2-75a5-43d9-89fc-ef7281698384" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "BTXXTTVPXTVPXTTVPSE BPVPSE BTXSE BPVVE BPVVE BTSXSE BPTVPXTTTVVE BPVVE BTXSE BTXXVPSE BPTTTTTTTTVVE BTXSE BPVPSE BTXSE BPTVPSE BTXXTVPSE BPVVE BPVVE BPVVE BPTTVVE BPVVE BPVVE BTXXVVE BTXXVVE BTXXVPXVVE " ] } ], "source": [ "np.random.seed(42)\n", "\n", "for _ in range(25):\n", " print(generate_string(default_reber_grammar), end=\" \")" ] }, { "cell_type": "markdown", "id": "4e47bf8e", "metadata": { "id": "MMjDaDs3tv8i" }, "source": [ "좋습니다. 이제 임베딩된 레버 문법에 맞는 문자열을 몇 개 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 80, "id": "b221ce57", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "vh1GBGCEtv8k", "outputId": "56cae26b-7c7c-406a-e389-e72223c2f095" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "BTBPTTTVPXTVPXTTVPSETE BPBPTVPSEPE BPBPVVEPE BPBPVPXVVEPE BPBTXXTTTTVVEPE BPBPVPSEPE BPBTXXVPSEPE BPBTSSSSSSSXSEPE BTBPVVETE BPBTXXVVEPE BPBTXXVPSEPE BTBTXXVVETE BPBPVVEPE BPBPVVEPE BPBTSXSEPE BPBPVVEPE BPBPTVPSEPE BPBTXXVVEPE BTBPTVPXVVETE BTBPVVETE BTBTSSSSSSSXXVVETE BPBTSSSXXTTTTVPSEPE BTBPTTVVETE BPBTXXTVVEPE BTBTXSETE " ] } ], "source": [ "np.random.seed(42)\n", "\n", "for _ in range(25):\n", " print(generate_string(embedded_reber_grammar), end=\" \")" ] }, { "cell_type": "markdown", "id": "e8cec53d", "metadata": { "id": "3AUMi5Rxtv8k" }, "source": [ "좋네요, 이제 이 문법을 따르지 않는 문자열을 생성할 함수를 만듭니다. 무작위하게 문자열을 만들 수 있지만 그렇게 하면 너무 문제가 쉬워지므로 대신 문법을 따르는 문자열을 만든 후 하나의 문자만 바꾸어 놓도록 하겠습니다:" ] }, { "cell_type": "code", "execution_count": 81, "id": "87b2092c", "metadata": { "id": "lB3U7RTTtv8k" }, "outputs": [], "source": [ "POSSIBLE_CHARS = \"BEPSTVX\"\n", "\n", "def generate_corrupted_string(grammar, chars=POSSIBLE_CHARS):\n", " good_string = generate_string(grammar)\n", " index = np.random.randint(len(good_string))\n", " good_char = good_string[index]\n", " bad_char = np.random.choice(sorted(set(chars) - set(good_char)))\n", " return good_string[:index] + bad_char + good_string[index + 1:]" ] }, { "cell_type": "markdown", "id": "e4c15df8", "metadata": { "id": "owPPvYwttv8k" }, "source": [ "잘못된 문자열 몇 개를 만들어 보죠:" ] }, { "cell_type": "code", "execution_count": 82, "id": "5ccc5049", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "v82ibd9_tv8k", "outputId": "040a400e-dc02-4f1a-92d9-3763ecd1459c" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "BTBPTTTPPXTVPXTTVPSETE BPBTXEEPE BPBPTVVVEPE BPBTSSSSXSETE BPTTXSEPE BTBPVPXTTTTTTEVETE BPBTXXSVEPE BSBPTTVPSETE BPBXVVEPE BEBTXSETE BPBPVPSXPE BTBPVVVETE BPBTSXSETE BPBPTTTPTTTTTVPSEPE BTBTXXTTSTVPSETE BBBTXSETE BPBTPXSEPE BPBPVPXTTTTVPXTVPXVPXTTTVVEVE BTBXXXTVPSETE BEBTSSSSSXXVPXTVVETE BTBXTTVVETE BPBTXSTPE BTBTXXTTTVPSBTE BTBTXSETX BTBTSXSSTE " ] } ], "source": [ "np.random.seed(42)\n", "\n", "for _ in range(25):\n", " print(generate_corrupted_string(embedded_reber_grammar), end=\" \")" ] }, { "cell_type": "markdown", "id": "bd1fedf0", "metadata": { "id": "Xw7T7asjtv8k" }, "source": [ "문자열을 바로 RNN에 주입할 수는 없기 때문에 어떤 식으로든 인코딩해야 합니다. 한 가지 방법은 각 문자를 원-핫 인코딩하는 것입니다. 또 다른 방식은 임베딩을 사용하는 것입니다. 두 번째 방법을 사용해 보겠습니다(문자 개수가 작다면 원-핫 인코딩도 좋은 선택일 것입니다). 임베딩을 위해 각 문자열을 문자 ID의 시퀀스로 바꾸어야 합니다. POSSIBLE_CHARS의 문자열 인덱스를 사용해 이런 작업을 수행하는 함수를 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 83, "id": "6f5760ea", "metadata": { "id": "DjetSTB3tv8k" }, "outputs": [], "source": [ "def string_to_ids(s, chars=POSSIBLE_CHARS):\n", " return [chars.index(c) for c in s]" ] }, { "cell_type": "code", "execution_count": 84, "id": "52351d4d", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "yrs-YnM8tv8k", "outputId": "698c4f79-5f61-4fb6-bf10-c7924fbc64d1" }, "outputs": [ { "data": { "text/plain": [ "[0, 4, 4, 4, 6, 6, 5, 5, 1, 4, 1]" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "string_to_ids(\"BTTTXXVVETE\")" ] }, { "cell_type": "markdown", "id": "31974778", "metadata": { "id": "orZ26XY9tv8k" }, "source": [ "이제 50%는 올바른 문자열 50%는 잘못된 문자열로 이루어진 데이터셋을 만듭니다:" ] }, { "cell_type": "code", "execution_count": 85, "id": "a36421b4", "metadata": { "id": "Vibpk-Qftv8k" }, "outputs": [], "source": [ "def generate_dataset(size):\n", " good_strings = [string_to_ids(generate_string(embedded_reber_grammar))\n", " for _ in range(size // 2)]\n", " bad_strings = [string_to_ids(generate_corrupted_string(embedded_reber_grammar))\n", " for _ in range(size - size // 2)]\n", " all_strings = good_strings + bad_strings\n", " X = tf.ragged.constant(all_strings, ragged_rank=1)\n", " y = np.array([[1.] for _ in range(len(good_strings))] +\n", " [[0.] for _ in range(len(bad_strings))])\n", " return X, y" ] }, { "cell_type": "code", "execution_count": 86, "id": "c1a30de4", "metadata": { "id": "QO4l6qD1tv8l" }, "outputs": [], "source": [ "np.random.seed(42)\n", "\n", "X_train, y_train = generate_dataset(10000)\n", "X_valid, y_valid = generate_dataset(2000)" ] }, { "cell_type": "markdown", "id": "ef8065a7", "metadata": { "id": "OlKDQ72atv8l" }, "source": [ "첫 번째 훈련 샘플을 확인해 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 87, "id": "598d47a2", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "tAhssGmetv8l", "outputId": "8d1d9201-1149-46b0-8693-d85abecb0f16" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[0]" ] }, { "cell_type": "markdown", "id": "24794a4a", "metadata": { "id": "ChQN2o-htv8l" }, "source": [ "어떤 클래스에 속할까요?" ] }, { "cell_type": "code", "execution_count": 88, "id": "24693f15", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "uFcQIlNXtv8l", "outputId": "4e7df68b-22e3-4048-aa0b-ff954376d61c" }, "outputs": [ { "data": { "text/plain": [ "array([1.])" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "y_train[0]" ] }, { "cell_type": "markdown", "id": "3e84996f", "metadata": { "id": "vZ4Rs1Wctv8l" }, "source": [ "완벽합니다! 이제 올바른 문자열을 구분할 RNN을 만들 준비가 되었습니다. 간단한 시퀀스 이진 분류기를 만듭니다:" ] }, { "cell_type": "code", "execution_count": 89, "id": "46175c27", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "lFWo2np6tv8l", "outputId": "5c67e34f-c41a-4e2f-dd49-43eef4c1c697" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/usr/local/lib/python3.7/dist-packages/keras/optimizer_v2/optimizer_v2.py:356: UserWarning: The `lr` argument is deprecated, use `learning_rate` instead.\n", " \"The `lr` argument is deprecated, use `learning_rate` instead.\")\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/20\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/indexed_slices.py:449: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/sequential_6/gru_12/RaggedToTensor/boolean_mask_1/GatherV2:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/sequential_6/gru_12/RaggedToTensor/boolean_mask/GatherV2:0\", shape=(None, 5), dtype=float32), dense_shape=Tensor(\"gradient_tape/sequential_6/gru_12/RaggedToTensor/Shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n", " \"shape. This may consume a large amount of memory.\" % value)\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "313/313 [==============================] - 18s 53ms/step - loss: 0.6910 - accuracy: 0.5095 - val_loss: 0.6825 - val_accuracy: 0.5645\n", "Epoch 2/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.6678 - accuracy: 0.5659 - val_loss: 0.6635 - val_accuracy: 0.6105\n", "Epoch 3/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.6504 - accuracy: 0.5766 - val_loss: 0.6521 - val_accuracy: 0.6110\n", "Epoch 4/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.6347 - accuracy: 0.5980 - val_loss: 0.6224 - val_accuracy: 0.6445\n", "Epoch 5/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.6054 - accuracy: 0.6361 - val_loss: 0.5779 - val_accuracy: 0.6980\n", "Epoch 6/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.5414 - accuracy: 0.7093 - val_loss: 0.4695 - val_accuracy: 0.7795\n", "Epoch 7/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.3913 - accuracy: 0.8320 - val_loss: 0.2796 - val_accuracy: 0.8955\n", "Epoch 8/20\n", "313/313 [==============================] - 16s 53ms/step - loss: 0.4481 - accuracy: 0.7648 - val_loss: 0.5198 - val_accuracy: 0.6870\n", "Epoch 9/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.4590 - accuracy: 0.7721 - val_loss: 0.3302 - val_accuracy: 0.8660\n", "Epoch 10/20\n", "313/313 [==============================] - 16s 53ms/step - loss: 0.2588 - accuracy: 0.9078 - val_loss: 0.1560 - val_accuracy: 0.9715\n", "Epoch 11/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.1452 - accuracy: 0.9580 - val_loss: 0.1371 - val_accuracy: 0.9605\n", "Epoch 12/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.0698 - accuracy: 0.9834 - val_loss: 0.0417 - val_accuracy: 0.9885\n", "Epoch 13/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.0835 - accuracy: 0.9776 - val_loss: 0.0347 - val_accuracy: 0.9895\n", "Epoch 14/20\n", "313/313 [==============================] - 16s 53ms/step - loss: 0.0402 - accuracy: 0.9913 - val_loss: 0.0168 - val_accuracy: 0.9980\n", "Epoch 15/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.0275 - accuracy: 0.9953 - val_loss: 0.0082 - val_accuracy: 0.9990\n", "Epoch 16/20\n", "313/313 [==============================] - 16s 52ms/step - loss: 0.0108 - accuracy: 0.9979 - val_loss: 0.0102 - val_accuracy: 0.9960\n", "Epoch 17/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.0136 - accuracy: 0.9972 - val_loss: 0.0084 - val_accuracy: 0.9990\n", "Epoch 18/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.0070 - accuracy: 0.9988 - val_loss: 0.0080 - val_accuracy: 0.9990\n", "Epoch 19/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.0057 - accuracy: 0.9986 - val_loss: 0.0029 - val_accuracy: 0.9995\n", "Epoch 20/20\n", "313/313 [==============================] - 17s 53ms/step - loss: 0.0338 - accuracy: 0.9924 - val_loss: 0.0059 - val_accuracy: 0.9975\n" ] } ], "source": [ "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "embedding_size = 5\n", "\n", "model = keras.models.Sequential([\n", " keras.layers.InputLayer(input_shape=[None], dtype=tf.int32, ragged=True),\n", " keras.layers.Embedding(input_dim=len(POSSIBLE_CHARS), output_dim=embedding_size),\n", " keras.layers.GRU(30),\n", " keras.layers.Dense(1, activation=\"sigmoid\")\n", "])\n", "optimizer = keras.optimizers.SGD(learning_rate=0.02, momentum = 0.95, nesterov=True)\n", "model.compile(loss=\"binary_crossentropy\", optimizer=optimizer, metrics=[\"accuracy\"])\n", "history = model.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))" ] }, { "cell_type": "markdown", "id": "fdabacfc", "metadata": { "id": "0oUkSIN4tv8l" }, "source": [ "이제 두 개의 까다로운 문자열로 이 RNN을 테스트해 보죠: 첫 번째는 잘못된 것이고 두 번째는 올바른 것입니다. 이 문자열은 마지막에서 두 번째 글자만 다릅니다. RNN이 이를 맞춘다면 두 번째 문자가 항상 끝에서 두 번째 문자와 같아야 한다는 패턴을 알게 됐다는 것을 의미합니다. 이렇게 하려면 꽤 긴 단기 기억(long short-term memory)이 필요합니다(그래서 GRU 셀을 사용했습니다)." ] }, { "cell_type": "code", "execution_count": 90, "id": "5b2b5d55", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "woeAPArztv8l", "outputId": "7513a4d5-351a-4088-aecf-00bdabecc8a3" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Estimated probability that these are Reber strings:\n", "BPBTSSSSSSSXXTTVPXVPXTTTTTVVETE: 0.06%\n", "BPBTSSSSSSSXXTTVPXVPXTTTTTVVEPE: 91.51%\n" ] } ], "source": [ "test_strings = [\"BPBTSSSSSSSXXTTVPXVPXTTTTTVVETE\",\n", " \"BPBTSSSSSSSXXTTVPXVPXTTTTTVVEPE\"]\n", "X_test = tf.ragged.constant([string_to_ids(s) for s in test_strings], ragged_rank=1)\n", "\n", "y_proba = model.predict(X_test)\n", "print()\n", "print(\"레버 문자열일 추정 확률:\")\n", "for index, string in enumerate(test_strings):\n", " print(\"{}: {:.2f}%\".format(string, 100 * y_proba[index][0]))" ] }, { "cell_type": "markdown", "id": "4b090fa6", "metadata": { "id": "jJ5RpKJQtv8l" }, "source": [ "쨘! 잘 작동하네요. 이 RNN이 매우 높은 신뢰도로 정확한 답을 냈습니다. :)" ] }, { "cell_type": "markdown", "id": "e389df2b", "metadata": { "id": "0gdLLJPDtv8l" }, "source": [ "## 9.\n", "_연습문제: 날짜 문자열 포맷을 변환하는 인코더-디코더 모델을 훈련하세요(예를 들어, ‘April 22, 2019’에서 ‘2019-04-22’로 바꿉니다)._" ] }, { "cell_type": "markdown", "id": "708efade", "metadata": { "id": "7MQ_bXh7tv8m" }, "source": [ "먼저 데이터셋을 만들어 보죠. 1000-01-01 ~ 9999-12-31 사이의 랜덤한 날짜를 사용하겠습니다:" ] }, { "cell_type": "code", "execution_count": 91, "id": "f9b93918", "metadata": { "id": "3vJWvpzYtv8m" }, "outputs": [], "source": [ "from datetime import date\n", "\n", "# strftime()의 %B 포맷은 로케일에 의존하기 때문에 사용할 수 있습니다.\n", "MONTHS = [\"January\", \"February\", \"March\", \"April\", \"May\", \"June\",\n", " \"July\", \"August\", \"September\", \"October\", \"November\", \"December\"]\n", "\n", "def random_dates(n_dates):\n", " min_date = date(1000, 1, 1).toordinal()\n", " max_date = date(9999, 12, 31).toordinal()\n", "\n", " ordinals = np.random.randint(max_date - min_date, size=n_dates) + min_date\n", " dates = [date.fromordinal(ordinal) for ordinal in ordinals]\n", "\n", " x = [MONTHS[dt.month - 1] + \" \" + dt.strftime(\"%d, %Y\") for dt in dates]\n", " y = [dt.isoformat() for dt in dates]\n", " return x, y" ] }, { "cell_type": "markdown", "id": "ec541c3c", "metadata": { "id": "fweZNTfWtv8m" }, "source": [ "다음은 입력과 출력 형식에 맞춘 랜덤한 몇 개의 날짜입니다:" ] }, { "cell_type": "code", "execution_count": 92, "id": "93a05ad2", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "VmBpLCECtv8m", "outputId": "336a8226-1969-44ff-d3eb-88f29003039b" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Input Target \n", "--------------------------------------------------\n", "September 20, 7075 7075-09-20 \n", "May 15, 8579 8579-05-15 \n", "January 11, 7103 7103-01-11 \n" ] } ], "source": [ "np.random.seed(42)\n", "\n", "n_dates = 3\n", "x_example, y_example = random_dates(n_dates)\n", "print(\"{:25s}{:25s}\".format(\"Input\", \"Target\"))\n", "print(\"-\" * 50)\n", "for idx in range(n_dates):\n", " print(\"{:25s}{:25s}\".format(x_example[idx], y_example[idx]))" ] }, { "cell_type": "markdown", "id": "9551a123", "metadata": { "id": "Md_T4D2Otv8m" }, "source": [ "입력에 가능한 전체 문자를 나열해 보죠:" ] }, { "cell_type": "code", "execution_count": 93, "id": "20108180", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 35 }, "id": "6Q5kdGjNtv8m", "outputId": "7a56dd61-6a62-4425-a449-1d04dde3b782" }, "outputs": [ { "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "' ,0123456789ADFJMNOSabceghilmnoprstuvy'" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "INPUT_CHARS = \"\".join(sorted(set(\"\".join(MONTHS) + \"0123456789, \")))\n", "INPUT_CHARS" ] }, { "cell_type": "markdown", "id": "1cd3edd0", "metadata": { "id": "hVUgoO8ptv8m" }, "source": [ "그리고 다음은 출력에 가능한 전체 문자입니다:" ] }, { "cell_type": "code", "execution_count": 94, "id": "888ee05e", "metadata": { "id": "-7cQ8Rkrtv8m" }, "outputs": [], "source": [ "OUTPUT_CHARS = \"0123456789-\"" ] }, { "cell_type": "markdown", "id": "be422c85", "metadata": { "id": "zIiXQMawtv8m" }, "source": [ "이전 연습문제에서처럼 문자열을 문자 ID 리스트로 바꾸는 함수를 작성해 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 95, "id": "d6d0f39c", "metadata": { "id": "28gfYt5Ttv8m" }, "outputs": [], "source": [ "def date_str_to_ids(date_str, chars=INPUT_CHARS):\n", " return [chars.index(c) for c in date_str]" ] }, { "cell_type": "code", "execution_count": 96, "id": "d7a1f743", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "iyEmwC9Ltv8m", "outputId": "75b750b1-7c8e-48ab-eac5-5b7d1a817387" }, "outputs": [ { "data": { "text/plain": [ "[19, 23, 31, 34, 23, 28, 21, 23, 32, 0, 4, 2, 1, 0, 9, 2, 9, 7]" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "date_str_to_ids(x_example[0], INPUT_CHARS)" ] }, { "cell_type": "code", "execution_count": 97, "id": "9f768648", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "xj7gwXTXtv8m", "outputId": "609f2479-2293-478f-c777-dfe55b6d53ed" }, "outputs": [ { "data": { "text/plain": [ "[7, 0, 7, 5, 10, 0, 9, 10, 2, 0]" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "date_str_to_ids(y_example[0], OUTPUT_CHARS)" ] }, { "cell_type": "code", "execution_count": 98, "id": "27493a6e", "metadata": { "id": "0q2sw_8ptv8n" }, "outputs": [], "source": [ "def prepare_date_strs(date_strs, chars=INPUT_CHARS):\n", " X_ids = [date_str_to_ids(dt, chars) for dt in date_strs]\n", " X = tf.ragged.constant(X_ids, ragged_rank=1)\n", " return (X + 1).to_tensor() # using 0 as the padding token ID\n", "\n", "def create_dataset(n_dates):\n", " x, y = random_dates(n_dates)\n", " return prepare_date_strs(x, INPUT_CHARS), prepare_date_strs(y, OUTPUT_CHARS)" ] }, { "cell_type": "code", "execution_count": 99, "id": "c200b679", "metadata": { "id": "z90RMDxVtv8n" }, "outputs": [], "source": [ "np.random.seed(42)\n", "\n", "X_train, Y_train = create_dataset(10000)\n", "X_valid, Y_valid = create_dataset(2000)\n", "X_test, Y_test = create_dataset(2000)" ] }, { "cell_type": "code", "execution_count": 100, "id": "4822ab39", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "RSCJ4ZKAtv8n", "outputId": "713f8866-0007-47d5-e0cf-d82a5113a2e6" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "Y_train[0]" ] }, { "cell_type": "markdown", "id": "f6509040", "metadata": { "id": "M5twt7zVtv8n" }, "source": [ "### 첫 번째 버전: 기본적인 seq2seq 모델" ] }, { "cell_type": "markdown", "id": "d459d019", "metadata": { "id": "6niu6Al_tv8n" }, "source": [ "먼저 가장 간단한 모델을 시도해 보겠습니다: 입력 시퀀스가 먼저 (임베딩 층 뒤에 하나의 LSTM 층으로 구성된) 인코더를 통과하여 벡터로 출력됩니다. 그 다음 이 벡터가 (하나의 LSTM 층 뒤에 밀집 층으로 구성된) 디코더로 들어가 벡터의 시퀀스를 출력합니다. 각 벡터는 가능한 모든 출력 문자에 대한 추정 확률입니다.\n", "\n", "디코더는 시퀀스를 입력으로 기대하기 때문에 가능한 가장 긴 출력 시퀀스만큼 (인코더의 출력) 벡터를 반복합니다." ] }, { "cell_type": "code", "execution_count": 101, "id": "2ec33cdb", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "tERJfXk7tv8n", "outputId": "323ee34d-00cc-4f13-d98d-e61e357b8bd7" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/20\n", "313/313 [==============================] - 6s 9ms/step - loss: 1.8255 - accuracy: 0.3456 - val_loss: 1.3841 - val_accuracy: 0.4841\n", "Epoch 2/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 1.2676 - accuracy: 0.5435 - val_loss: 1.1041 - val_accuracy: 0.6076\n", "Epoch 3/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 1.0743 - accuracy: 0.6210 - val_loss: 1.1233 - val_accuracy: 0.5800\n", "Epoch 4/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 1.1518 - accuracy: 0.5975 - val_loss: 0.9246 - val_accuracy: 0.6608\n", "Epoch 5/20\n", "313/313 [==============================] - 2s 8ms/step - loss: 0.7419 - accuracy: 0.7272 - val_loss: 0.6349 - val_accuracy: 0.7602\n", "Epoch 6/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.6495 - accuracy: 0.7567 - val_loss: 0.5411 - val_accuracy: 0.7875\n", "Epoch 7/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.4445 - accuracy: 0.8246 - val_loss: 0.3653 - val_accuracy: 0.8564\n", "Epoch 8/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.4815 - accuracy: 0.8322 - val_loss: 0.3781 - val_accuracy: 0.8661\n", "Epoch 9/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.2758 - accuracy: 0.9068 - val_loss: 0.2180 - val_accuracy: 0.9336\n", "Epoch 10/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.1578 - accuracy: 0.9588 - val_loss: 0.1138 - val_accuracy: 0.9747\n", "Epoch 11/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0805 - accuracy: 0.9851 - val_loss: 0.0638 - val_accuracy: 0.9887\n", "Epoch 12/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0441 - accuracy: 0.9948 - val_loss: 0.0357 - val_accuracy: 0.9965\n", "Epoch 13/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.1565 - accuracy: 0.9641 - val_loss: 0.0730 - val_accuracy: 0.9875\n", "Epoch 14/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0364 - accuracy: 0.9965 - val_loss: 0.0254 - val_accuracy: 0.9981\n", "Epoch 15/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0165 - accuracy: 0.9994 - val_loss: 0.0150 - val_accuracy: 0.9994\n", "Epoch 16/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0104 - accuracy: 0.9998 - val_loss: 0.0101 - val_accuracy: 0.9997\n", "Epoch 17/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0071 - accuracy: 0.9999 - val_loss: 0.0072 - val_accuracy: 0.9998\n", "Epoch 18/20\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0051 - accuracy: 1.0000 - val_loss: 0.0054 - val_accuracy: 0.9999\n", "Epoch 19/20\n", "313/313 [==============================] - 2s 8ms/step - loss: 0.0038 - accuracy: 1.0000 - val_loss: 0.0042 - val_accuracy: 0.9999\n", "Epoch 20/20\n", "313/313 [==============================] - 2s 8ms/step - loss: 0.0029 - accuracy: 1.0000 - val_loss: 0.0033 - val_accuracy: 0.9999\n" ] } ], "source": [ "embedding_size = 32\n", "max_output_length = Y_train.shape[1]\n", "\n", "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "encoder = keras.models.Sequential([\n", " keras.layers.Embedding(input_dim=len(INPUT_CHARS) + 1,\n", " output_dim=embedding_size,\n", " input_shape=[None]),\n", " keras.layers.LSTM(128)\n", "])\n", "\n", "decoder = keras.models.Sequential([\n", " keras.layers.LSTM(128, return_sequences=True),\n", " keras.layers.Dense(len(OUTPUT_CHARS) + 1, activation=\"softmax\")\n", "])\n", "\n", "model = keras.models.Sequential([\n", " encoder,\n", " keras.layers.RepeatVector(max_output_length),\n", " decoder\n", "])\n", "\n", "optimizer = keras.optimizers.Nadam()\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=optimizer,\n", " metrics=[\"accuracy\"])\n", "history = model.fit(X_train, Y_train, epochs=20,\n", " validation_data=(X_valid, Y_valid))" ] }, { "cell_type": "markdown", "id": "649f8996", "metadata": { "id": "_KWcyDdDtv8n" }, "source": [ "좋아 보이네요, 100% 검증 정확도를 달성했습니다! 이 모델을 사용해 예측을 만들어 보죠. 문자 ID 시퀀스를 문자열로 바꾸는 함수를 작성하겠습니다:" ] }, { "cell_type": "code", "execution_count": 102, "id": "e2b689cd", "metadata": { "id": "bMZqmhuftv8n" }, "outputs": [], "source": [ "def ids_to_date_strs(ids, chars=OUTPUT_CHARS):\n", " return [\"\".join([(\"?\" + chars)[index] for index in sequence])\n", " for sequence in ids]" ] }, { "cell_type": "markdown", "id": "a81a16f8", "metadata": { "id": "RpWqdrzNtv8n" }, "source": [ "이제 모델을 사용해 샘플 날짜를 변환합니다." ] }, { "cell_type": "code", "execution_count": 103, "id": "7613063e", "metadata": { "id": "iTP5hLb3tv8o" }, "outputs": [], "source": [ "X_new = prepare_date_strs([\"September 17, 2009\", \"July 14, 1789\"])" ] }, { "cell_type": "code", "execution_count": 104, "id": "719517c9", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "lI8O8rH2tv8o", "outputId": "ee400b10-485f-40d7-c313-0c1cfbd5d140" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2009-09-17\n", "1789-07-14\n" ] } ], "source": [ "#ids = model.predict_classes(X_new)\n", "ids = np.argmax(model.predict(X_new), axis=-1)\n", "for date_str in ids_to_date_strs(ids):\n", " print(date_str)" ] }, { "cell_type": "markdown", "id": "79b22394", "metadata": { "id": "UzAyIB_Mtv8o" }, "source": [ "완벽합니다! :)" ] }, { "cell_type": "markdown", "id": "3da042d1", "metadata": { "id": "vIsVXff1tv8o" }, "source": [ "하지만 (가장 긴 날짜에 해당하는) 길이가 18인 입력 문자열에서만 모델이 훈련되었기 때문에 짧은 시퀀스에서는 잘 동작하지 않습니다:" ] }, { "cell_type": "code", "execution_count": 105, "id": "b4c05125", "metadata": { "id": "wbAsRuu8tv8o" }, "outputs": [], "source": [ "X_new = prepare_date_strs([\"May 02, 2020\", \"July 14, 1789\"])" ] }, { "cell_type": "code", "execution_count": 106, "id": "2b4e8b35", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "aMAB5YD1tv8o", "outputId": "2b4da3a3-51ad-45f0-8e93-ee9bfceab141" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2020-08-02\n", "1789-02-14\n" ] } ], "source": [ "#ids = model.predict_classes(X_new)\n", "ids = np.argmax(model.predict(X_new), axis=-1)\n", "for date_str in ids_to_date_strs(ids):\n", " print(date_str)" ] }, { "cell_type": "markdown", "id": "9fb3faf4", "metadata": { "id": "eBunlIHZtv8o" }, "source": [ "이런! 패딩을 사용해 훈련할 때와 동일한 길이의 시퀀스를 전달해야 할 것 같습니다. 이를 위해 헬퍼 함수를 작성해 보죠:" ] }, { "cell_type": "code", "execution_count": 107, "id": "8dffc25d", "metadata": { "id": "vgF492Sjtv8o" }, "outputs": [], "source": [ "max_input_length = X_train.shape[1]\n", "\n", "def prepare_date_strs_padded(date_strs):\n", " X = prepare_date_strs(date_strs)\n", " if X.shape[1] < max_input_length:\n", " X = tf.pad(X, [[0, 0], [0, max_input_length - X.shape[1]]])\n", " return X\n", "\n", "def convert_date_strs(date_strs):\n", " X = prepare_date_strs_padded(date_strs)\n", " #ids = model.predict_classes(X)\n", " ids = np.argmax(model.predict(X), axis=-1)\n", " return ids_to_date_strs(ids)" ] }, { "cell_type": "code", "execution_count": 108, "id": "9bee70b0", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "ew6vaPfRtv8o", "outputId": "aa9b3599-48a4-423a-eedb-ba31bda48d04" }, "outputs": [ { "data": { "text/plain": [ "['2020-05-02', '1789-07-14']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "convert_date_strs([\"May 02, 2020\", \"July 14, 1789\"])" ] }, { "cell_type": "markdown", "id": "2cdff980", "metadata": { "id": "sWqhRcN0tv8o" }, "source": [ "좋네요! 물론 더 쉽게 날짜 변환 도구를 만들 수 있습니다(예를 들면, 정규식이나 더 단순한 문자열 조작). 하지만 신경망을 사용하는 것이 더 멋져 보이네요. ;-)" ] }, { "cell_type": "markdown", "id": "cb19d142", "metadata": { "id": "vFdkDNqEtv8p" }, "source": [ "하지만 실제 시퀀스-투-시퀀스 문제는 더 어렵습니다. 완벽함을 추구하기 위해 더 강력한 모델을 만들어 보겠습니다." ] }, { "cell_type": "markdown", "id": "2dafe874", "metadata": { "id": "Zk3HMCeJtv8p" }, "source": [ "### 두 번째 버전: 디코더에서 쉬프트된 타깃 주입하기(티처 포싱(teacher forcing))" ] }, { "cell_type": "markdown", "id": "bcd5cd9d", "metadata": { "id": "PK45DCaQtv8p" }, "source": [ "디코더에세 인코더 출력 벡터를 단순히 반복한 것을 주입하는 대신 한 타임 스텝 오른쪽으로 이동된 타깃 시퀀스를 주입할 수 있습니다. 이렇게 하면 각 타임 스텝에서 디코더는 이전 타깃 문자가 무엇인지 알게 됩니다. 이는 더 복잡한 시퀀스-투-시퀀스 문제를 다루는데 도움이 됩니다.\n", "\n", "각 타깃 시퀀스의 첫 번째 출력 문자는 이전 문자가 없기 때문에 시퀀스 시작(start-of-sequence, sos)을 나타내는 새로운 토큰이 필요합니다.\n", "\n", "추론에서는 타깃을 알지 못하므로 디코더에게 무엇을 주입해야 할까요? sos 토큰을 시작해서 한 번에 하나의 문자를 예측하고 디코더에게 지금까지 예측한 모든 문자를 주입할 수 있습니다(나중에 이 노트북에서 더 자세히 알아 보겠습니다).\n", "\n", "하지만 디코더의 LSTM이 스텝마다 이전 타깃을 입력으로 기대한다면 인코더의 벡터 출력을 어떻게 전달할까요? 한가지 방법은 출력 벡터를 무시하는 것입니다. 그리고 대신 인코더의 LSTM 상태를 디코더의 LSTM의 초기 상태로 사용합니다(이렇게 하려면 인코더의 LSTM과 디코더의 LSTM 유닛 개수가 같아야 합니다).\n", "\n", "그럼 (훈련, 검증, 테스트를 위한) 디코더의 입력을 만들어 보죠. sos 토큰은 가능한 출력 문자의 마지막 ID + 1으로 나타냅니다." ] }, { "cell_type": "code", "execution_count": 109, "id": "79c5f485", "metadata": { "id": "bXwbEjfbtv8p" }, "outputs": [], "source": [ "sos_id = len(OUTPUT_CHARS) + 1\n", "\n", "def shifted_output_sequences(Y):\n", " sos_tokens = tf.fill(dims=(len(Y), 1), value=sos_id)\n", " return tf.concat([sos_tokens, Y[:, :-1]], axis=1)\n", "\n", "X_train_decoder = shifted_output_sequences(Y_train)\n", "X_valid_decoder = shifted_output_sequences(Y_valid)\n", "X_test_decoder = shifted_output_sequences(Y_test)" ] }, { "cell_type": "markdown", "id": "7fc5a987", "metadata": { "id": "LUjoI0_Gtv8p" }, "source": [ "디코더의 훈련 입력을 확인해 보죠:" ] }, { "cell_type": "code", "execution_count": 110, "id": "abd098c3", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "2wMwFdnKtv8p", "outputId": "9c714a7b-ce1e-40e0-e35f-12342e8c3f8f" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train_decoder" ] }, { "cell_type": "markdown", "id": "d0411d58", "metadata": { "id": "0I2fke1qtv8p" }, "source": [ "이제 모델을 만듭니다. 이제 더 이상 간단한 시퀀셜 모델이 아니므로 함수형 API를 사용하겠습니다:" ] }, { "cell_type": "code", "execution_count": 111, "id": "89f99b94", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "BxM0r7A-tv8p", "outputId": "6418a95d-ec9c-4f4f-a463-5b3f91c380b1" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/10\n", "313/313 [==============================] - 6s 9ms/step - loss: 1.6803 - accuracy: 0.3743 - val_loss: 1.4168 - val_accuracy: 0.4505\n", "Epoch 2/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 1.1884 - accuracy: 0.5587 - val_loss: 0.8931 - val_accuracy: 0.6714\n", "Epoch 3/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.6520 - accuracy: 0.7671 - val_loss: 0.3952 - val_accuracy: 0.8698\n", "Epoch 4/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.2255 - accuracy: 0.9431 - val_loss: 0.1285 - val_accuracy: 0.9754\n", "Epoch 5/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0803 - accuracy: 0.9895 - val_loss: 0.0490 - val_accuracy: 0.9964\n", "Epoch 6/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0714 - accuracy: 0.9882 - val_loss: 0.0286 - val_accuracy: 0.9991\n", "Epoch 7/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0188 - accuracy: 0.9998 - val_loss: 0.0150 - val_accuracy: 0.9998\n", "Epoch 8/10\n", "313/313 [==============================] - 2s 8ms/step - loss: 0.0110 - accuracy: 1.0000 - val_loss: 0.0100 - val_accuracy: 0.9999\n", "Epoch 9/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0417 - accuracy: 0.9935 - val_loss: 0.0104 - val_accuracy: 0.9998\n", "Epoch 10/10\n", "313/313 [==============================] - 2s 7ms/step - loss: 0.0068 - accuracy: 1.0000 - val_loss: 0.0058 - val_accuracy: 0.9999\n" ] } ], "source": [ "encoder_embedding_size = 32\n", "decoder_embedding_size = 32\n", "lstm_units = 128\n", "\n", "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "encoder_input = keras.layers.Input(shape=[None], dtype=tf.int32)\n", "encoder_embedding = keras.layers.Embedding(\n", " input_dim=len(INPUT_CHARS) + 1,\n", " output_dim=encoder_embedding_size)(encoder_input)\n", "_, encoder_state_h, encoder_state_c = keras.layers.LSTM(\n", " lstm_units, return_state=True)(encoder_embedding)\n", "encoder_state = [encoder_state_h, encoder_state_c]\n", "\n", "decoder_input = keras.layers.Input(shape=[None], dtype=tf.int32)\n", "decoder_embedding = keras.layers.Embedding(\n", " input_dim=len(OUTPUT_CHARS) + 2,\n", " output_dim=decoder_embedding_size)(decoder_input)\n", "decoder_lstm_output = keras.layers.LSTM(lstm_units, return_sequences=True)(\n", " decoder_embedding, initial_state=encoder_state)\n", "decoder_output = keras.layers.Dense(len(OUTPUT_CHARS) + 1,\n", " activation=\"softmax\")(decoder_lstm_output)\n", "\n", "model = keras.models.Model(inputs=[encoder_input, decoder_input],\n", " outputs=[decoder_output])\n", "\n", "optimizer = keras.optimizers.Nadam()\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=optimizer,\n", " metrics=[\"accuracy\"])\n", "history = model.fit([X_train, X_train_decoder], Y_train, epochs=10,\n", " validation_data=([X_valid, X_valid_decoder], Y_valid))" ] }, { "cell_type": "markdown", "id": "20562dc5", "metadata": { "id": "oOomKTV2tv8p" }, "source": [ "이 모델도 100% 검증 정확도를 달성했지만 더 빠릅니다." ] }, { "cell_type": "markdown", "id": "a7c53a61", "metadata": { "id": "-YB76znWtv8p" }, "source": [ "이 모델을 사용해 몇 가지 예측을 수행해 보죠. 이번에는 한 문자씩 예측해야 합니다." ] }, { "cell_type": "code", "execution_count": 112, "id": "4c3f0ec5", "metadata": { "id": "QmNs8WCRtv8p" }, "outputs": [], "source": [ "sos_id = len(OUTPUT_CHARS) + 1\n", "\n", "def predict_date_strs(date_strs):\n", " X = prepare_date_strs_padded(date_strs)\n", " Y_pred = tf.fill(dims=(len(X), 1), value=sos_id)\n", " for index in range(max_output_length):\n", " pad_size = max_output_length - Y_pred.shape[1]\n", " X_decoder = tf.pad(Y_pred, [[0, 0], [0, pad_size]])\n", " Y_probas_next = model.predict([X, X_decoder])[:, index:index+1]\n", " Y_pred_next = tf.argmax(Y_probas_next, axis=-1, output_type=tf.int32)\n", " Y_pred = tf.concat([Y_pred, Y_pred_next], axis=1)\n", " return ids_to_date_strs(Y_pred[:, 1:])" ] }, { "cell_type": "code", "execution_count": 113, "id": "b8b7b536", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "M8f7h5tAtv8p", "outputId": "e6a68212-85ad-430d-cc4b-d6d2f5274f18" }, "outputs": [ { "data": { "text/plain": [ "['1789-07-14', '2020-05-01']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "2e9465da", "metadata": { "id": "JMJudMw_tv8q" }, "source": [ "잘 동작하네요! :)" ] }, { "cell_type": "markdown", "id": "b7eada7f", "metadata": { "id": "HAu_rpr-tv8q" }, "source": [ "### 세 번째 버전: TF-Addons의 seq2seq 구현 사용하기" ] }, { "cell_type": "markdown", "id": "b0ab92a6", "metadata": { "id": "-1rOp9eXtv8q" }, "source": [ "정확히 동일한 모델을 만들어 보죠. 하지만 TF-Addon의 seq2seq API를 사용하겠습니다. 아래 구현은 이 노트북의 위에 있는 TFA 예제와 거의 비슷합니다. 다만 모델 입력에 출력 시퀀스 길이를 지정하지 않습니다(하지만 출력 시퀀스의 길이가 매우 다른 프로젝트에서 필요하다면 쉽게 이를 추가할 수 있습니다)." ] }, { "cell_type": "code", "execution_count": 114, "id": "7b01a4fb", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "G5LxOJoKtv8q", "outputId": "b5e95063-90f3-4fc0-d985-a4ec57f5ccc5" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/15\n", "313/313 [==============================] - 13s 30ms/step - loss: 1.6778 - accuracy: 0.3657 - val_loss: 1.4651 - val_accuracy: 0.4271\n", "Epoch 2/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 1.3794 - accuracy: 0.4618 - val_loss: 1.1807 - val_accuracy: 0.5543\n", "Epoch 3/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.9574 - accuracy: 0.6449 - val_loss: 0.6447 - val_accuracy: 0.7751\n", "Epoch 4/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.3974 - accuracy: 0.8755 - val_loss: 0.6728 - val_accuracy: 0.7954\n", "Epoch 5/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.1182 - accuracy: 0.9829 - val_loss: 0.0621 - val_accuracy: 0.9962\n", "Epoch 6/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0608 - accuracy: 0.9930 - val_loss: 0.0320 - val_accuracy: 0.9988\n", "Epoch 7/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0219 - accuracy: 0.9997 - val_loss: 0.0177 - val_accuracy: 0.9997\n", "Epoch 8/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0129 - accuracy: 0.9999 - val_loss: 0.0116 - val_accuracy: 0.9999\n", "Epoch 9/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0083 - accuracy: 1.0000 - val_loss: 0.0077 - val_accuracy: 0.9999\n", "Epoch 10/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0544 - accuracy: 0.9894 - val_loss: 0.0106 - val_accuracy: 0.9999\n", "Epoch 11/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0064 - accuracy: 1.0000 - val_loss: 0.0052 - val_accuracy: 1.0000\n", "Epoch 12/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0040 - accuracy: 1.0000 - val_loss: 0.0037 - val_accuracy: 1.0000\n", "Epoch 13/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0029 - accuracy: 1.0000 - val_loss: 0.0029 - val_accuracy: 1.0000\n", "Epoch 14/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0023 - accuracy: 1.0000 - val_loss: 0.0023 - val_accuracy: 1.0000\n", "Epoch 15/15\n", "313/313 [==============================] - 9s 28ms/step - loss: 0.0018 - accuracy: 1.0000 - val_loss: 0.0018 - val_accuracy: 1.0000\n" ] } ], "source": [ "import tensorflow_addons as tfa\n", "\n", "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "encoder_embedding_size = 32\n", "decoder_embedding_size = 32\n", "units = 128\n", "\n", "encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "sequence_lengths = keras.layers.Input(shape=[], dtype=np.int32)\n", "\n", "encoder_embeddings = keras.layers.Embedding(\n", " len(INPUT_CHARS) + 1, encoder_embedding_size)(encoder_inputs)\n", "\n", "decoder_embedding_layer = keras.layers.Embedding(\n", " len(OUTPUT_CHARS) + 2, decoder_embedding_size)\n", "decoder_embeddings = decoder_embedding_layer(decoder_inputs)\n", "\n", "encoder = keras.layers.LSTM(units, return_state=True)\n", "encoder_outputs, state_h, state_c = encoder(encoder_embeddings)\n", "encoder_state = [state_h, state_c]\n", "\n", "sampler = tfa.seq2seq.sampler.TrainingSampler()\n", "\n", "decoder_cell = keras.layers.LSTMCell(units)\n", "output_layer = keras.layers.Dense(len(OUTPUT_CHARS) + 1)\n", "\n", "decoder = tfa.seq2seq.basic_decoder.BasicDecoder(decoder_cell,\n", " sampler,\n", " output_layer=output_layer)\n", "final_outputs, final_state, final_sequence_lengths = decoder(\n", " decoder_embeddings,\n", " initial_state=encoder_state)\n", "Y_proba = keras.layers.Activation(\"softmax\")(final_outputs.rnn_output)\n", "\n", "model = keras.models.Model(inputs=[encoder_inputs, decoder_inputs],\n", " outputs=[Y_proba])\n", "optimizer = keras.optimizers.Nadam()\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=optimizer,\n", " metrics=[\"accuracy\"])\n", "history = model.fit([X_train, X_train_decoder], Y_train, epochs=15,\n", " validation_data=([X_valid, X_valid_decoder], Y_valid))" ] }, { "cell_type": "markdown", "id": "d9999942", "metadata": { "id": "vU6otu8itv8q" }, "source": [ "여기에서도 100% 검증 정확도를 달성했습니다! 이 모델을 사용하기 위해 `predict_date_strs()` 함수를 다시 사용하겠습니다:" ] }, { "cell_type": "code", "execution_count": 115, "id": "39d14141", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "EFs8mzoRtv8q", "outputId": "7a150fd5-a38f-491e-fd34-33964ad787df", "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "['1789-07-14', '2020-05-01']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "03c0c593", "metadata": { "id": "XDblL58mtv8q" }, "source": [ "하지만 더 효율적으로 추론을 수행하는 방법이 있습니다. 지금까지 추론에서 새로운 문자마다 모델을 실행했습니다. 하지만`TrainingSampler` 대신에 `GreedyEmbeddingSampler`를 사용하는 새로운 디코더를 만들 수 있습니다.\n", "\n", "타임 스텝마다 `GreedyEmbeddingSampler`가 디코더의 출력에 argmax를 계산하고, 디코더 임베딩 층을 통해 토큰 ID를 얻을 수 있습니다. 그다음 다음 타임 스텝에 만들어진 임베딩을 디코더의 LSTM 셀에 주입합니다. 이런 방법을 통해 디코더를 한 번만 실행하여 전체 예측을 얻을 수 있습니다." ] }, { "cell_type": "code", "execution_count": 116, "id": "1ccf5b53", "metadata": { "id": "plvfzfXntv8q" }, "outputs": [], "source": [ "inference_sampler = tfa.seq2seq.sampler.GreedyEmbeddingSampler(\n", " embedding_fn=decoder_embedding_layer)\n", "inference_decoder = tfa.seq2seq.basic_decoder.BasicDecoder(\n", " decoder_cell, inference_sampler, output_layer=output_layer,\n", " maximum_iterations=max_output_length)\n", "batch_size = tf.shape(encoder_inputs)[:1]\n", "start_tokens = tf.fill(dims=batch_size, value=sos_id)\n", "final_outputs, final_state, final_sequence_lengths = inference_decoder(\n", " start_tokens,\n", " initial_state=encoder_state,\n", " start_tokens=start_tokens,\n", " end_token=0)\n", "\n", "inference_model = keras.models.Model(inputs=[encoder_inputs],\n", " outputs=[final_outputs.sample_id])" ] }, { "cell_type": "markdown", "id": "24ff2f3b", "metadata": { "id": "jyhHT6Cxtv8q" }, "source": [ "몇 개의 노트:\n", "* `GreedyEmbeddingSampler`는 `start_tokens`(디코더 시퀀스마다 sos ID를 담은 벡터)와 `end_token`(모델이 이 토큰을 출력할 때 디코더가 시퀀스 디코딩을 멈춥니다)이 필요합니다.\n", "* `BasicDecoder`를 만들 때 `maximum_iterations`를 설정해야 합니다. 그렇지 않으면 무한하게 반복할 수 있습니다(적어도 하나의 시퀀스에서 모델이 `end_token`을 출력하지 않는다면). 이렇게 되면 주피터 커널을 재시작해야 합니다.\n", "* 모든 디코더 입력이 이전 타임 스텝의 출력을 기반으로 동적으로 생성되기 때문에 디코더 입력은 더 이상 필요하지 않습니다.\n", "* 모델의 출력은 `final_outputs.rnn_outputs`의 소프트맥스가 아니라 `final_outputs.sample_id`입니다. 로짓 값을 얻고 싶다면 `final_outputs.sample_id`을 `final_outputs.rnn_outputs`으로 바꾸세요." ] }, { "cell_type": "markdown", "id": "a8b56ddb", "metadata": { "id": "6bef1fH5tv8q" }, "source": [ "이제 이 모델을 사용하는 간단한 함수를 작성하여 날짜 포맷 변환을 수행할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 117, "id": "4c79bb5f", "metadata": { "id": "WLWoDQ8Otv8q" }, "outputs": [], "source": [ "def fast_predict_date_strs(date_strs):\n", " X = prepare_date_strs_padded(date_strs)\n", " Y_pred = inference_model.predict(X)\n", " return ids_to_date_strs(Y_pred)" ] }, { "cell_type": "code", "execution_count": 118, "id": "6d121480", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "-0I01yt3tv8r", "outputId": "bba1ca75-5f84-458b-b61c-d18ca5a453ea", "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "['1789-07-14', '2020-05-01']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "fast_predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "d9c21b25", "metadata": { "id": "KoBa7tCYtv8r" }, "source": [ "속도를 확인해 보죠:" ] }, { "cell_type": "code", "execution_count": 119, "id": "67cc043a", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "0Nlchxkstv8r", "outputId": "2664a6ed-6f31-467e-9a18-bc8f7ade1e84" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "1 loop, best of 5: 383 ms per loop\n" ] } ], "source": [ "%timeit predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "code", "execution_count": 120, "id": "c518f02d", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "lbT1GWBgtv8r", "outputId": "15281fcb-57a3-41b5-a734-a6a8e21db6fc" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "10 loops, best of 5: 38.4 ms per loop\n" ] } ], "source": [ "%timeit fast_predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "ffbaccfc", "metadata": { "id": "6f7gwa7Qtv8r" }, "source": [ "10배 이상 빠릅니다! 긴 시퀀스를 다룰 때 속도는 더 차이가 날 것입니다." ] }, { "cell_type": "markdown", "id": "9a4d60a2", "metadata": { "id": "_tzy8KJQtv8r" }, "source": [ "### 네 번째 버전: 스케줄 샘플러를 사용하는 TF-Addons의 seq2seq 구현" ] }, { "cell_type": "markdown", "id": "a1d03dc6", "metadata": { "id": "JTC3AHDLtv8r" }, "source": [ "**경고**: TF 버그 때문에 이 버전은 텐서플로 2.2 이상에서만 동작합니다." ] }, { "cell_type": "markdown", "id": "3751f250", "metadata": { "id": "Evt0PT6Otv8r" }, "source": [ "이전 모델을 훈련할 때 매 타임 스텝 _t_에서 타임 스텝 _t_-1의 타깃 토큰을 모델에게 전달합니다. 하지만 추론에서는 모델이 타임 스텝마다 이전 타깃을 얻을 수 없습니다. 대신에 이전 예측을 사용합니다. 따라서 이런 훈련과 추론 사이에 차이가 실망스러운 성능으로 이어질 수 있습니다. 이를 완화하기 위해 훈련하는 동안 타깃을 예측으로 점진적으로 바꿀 수 있습니다. 이렇게 하려면 `TrainingSampler`를 `ScheduledEmbeddingTrainingSampler`를 바꾸기만 하면 됩니다. 그리고 `sampling_probability`(디코더가 이전 타임 스텝의 타깃 대신에 이전 타임 스텝의 예측을 사용할 확률)를 점진적으로 증가시키기 위해 케라스 콜백을 사용합니다." ] }, { "cell_type": "code", "execution_count": 121, "id": "a2f212f3", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "gK8OEbpFtv8r", "outputId": "f0a8fbdc-024b-42e0-f0d8-b9a0cca2c91d" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/20\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/indexed_slices.py:449: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_1_grad/Identity_4:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_1_grad/Identity_3:0\", shape=(None, 32), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_1_grad/Identity_5:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n", " \"shape. This may consume a large amount of memory.\" % value)\n", "/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/indexed_slices.py:449: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/gradients/grad_ys_0_indices:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/gradients/grad_ys_0_values:0\", shape=(None, 32), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/gradients/grad_ys_0_shape:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n", " \"shape. This may consume a large amount of memory.\" % value)\n", "/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/indexed_slices.py:449: UserWarning: Converting sparse IndexedSlices(IndexedSlices(indices=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/Identity_1:0\", shape=(None,), dtype=int32), values=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/Identity:0\", shape=(None, 32), dtype=float32), dense_shape=Tensor(\"gradient_tape/model_5/basic_decoder_3/decoder/while/gradients/model_5/basic_decoder_3/decoder/while/cond_grad/Identity_2:0\", shape=(2,), dtype=int32))) to a dense Tensor of unknown shape. This may consume a large amount of memory.\n", " \"shape. This may consume a large amount of memory.\" % value)\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "313/313 [==============================] - 17s 42ms/step - loss: 1.6779 - accuracy: 0.3658 - val_loss: 1.4628 - val_accuracy: 0.4332\n", "Epoch 2/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 1.4142 - accuracy: 0.4476 - val_loss: 1.3384 - val_accuracy: 0.4717\n", "Epoch 3/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 1.1022 - accuracy: 0.5820 - val_loss: 0.8807 - val_accuracy: 0.6834\n", "Epoch 4/20\n", "313/313 [==============================] - 13s 42ms/step - loss: 0.6877 - accuracy: 0.7457 - val_loss: 0.4740 - val_accuracy: 0.8270\n", "Epoch 5/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.3614 - accuracy: 0.8761 - val_loss: 0.2645 - val_accuracy: 0.9165\n", "Epoch 6/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.2485 - accuracy: 0.9265 - val_loss: 0.1711 - val_accuracy: 0.9531\n", "Epoch 7/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.1698 - accuracy: 0.9549 - val_loss: 0.1240 - val_accuracy: 0.9680\n", "Epoch 8/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0876 - accuracy: 0.9795 - val_loss: 0.0648 - val_accuracy: 0.9867\n", "Epoch 9/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0582 - accuracy: 0.9883 - val_loss: 0.0427 - val_accuracy: 0.9918\n", "Epoch 10/20\n", "313/313 [==============================] - 13s 42ms/step - loss: 0.0326 - accuracy: 0.9941 - val_loss: 0.0275 - val_accuracy: 0.9958\n", "Epoch 11/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0207 - accuracy: 0.9970 - val_loss: 0.0204 - val_accuracy: 0.9967\n", "Epoch 12/20\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.0140 - accuracy: 0.9982 - val_loss: 0.0138 - val_accuracy: 0.9981\n", "Epoch 13/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.1035 - accuracy: 0.9782 - val_loss: 0.0370 - val_accuracy: 0.9951\n", "Epoch 14/20\n", "313/313 [==============================] - 12s 40ms/step - loss: 0.0167 - accuracy: 0.9981 - val_loss: 0.0115 - val_accuracy: 0.9987\n", "Epoch 15/20\n", "313/313 [==============================] - 12s 40ms/step - loss: 0.0083 - accuracy: 0.9992 - val_loss: 0.0076 - val_accuracy: 0.9992\n", "Epoch 16/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0056 - accuracy: 0.9995 - val_loss: 0.0054 - val_accuracy: 0.9996\n", "Epoch 17/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0043 - accuracy: 0.9996 - val_loss: 0.0041 - val_accuracy: 0.9997\n", "Epoch 18/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0029 - accuracy: 0.9998 - val_loss: 0.0034 - val_accuracy: 0.9995\n", "Epoch 19/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0024 - accuracy: 0.9998 - val_loss: 0.0023 - val_accuracy: 0.9999\n", "Epoch 20/20\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.0033 - accuracy: 0.9995 - val_loss: 0.0026 - val_accuracy: 0.9998\n" ] } ], "source": [ "import tensorflow_addons as tfa\n", "\n", "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "n_epochs = 20\n", "encoder_embedding_size = 32\n", "decoder_embedding_size = 32\n", "units = 128\n", "\n", "encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)\n", "sequence_lengths = keras.layers.Input(shape=[], dtype=np.int32)\n", "\n", "encoder_embeddings = keras.layers.Embedding(\n", " len(INPUT_CHARS) + 1, encoder_embedding_size)(encoder_inputs)\n", "\n", "decoder_embedding_layer = keras.layers.Embedding(\n", " len(OUTPUT_CHARS) + 2, decoder_embedding_size)\n", "decoder_embeddings = decoder_embedding_layer(decoder_inputs)\n", "\n", "encoder = keras.layers.LSTM(units, return_state=True)\n", "encoder_outputs, state_h, state_c = encoder(encoder_embeddings)\n", "encoder_state = [state_h, state_c]\n", "\n", "sampler = tfa.seq2seq.sampler.ScheduledEmbeddingTrainingSampler(\n", " sampling_probability=0.,\n", " embedding_fn=decoder_embedding_layer)\n", "# sampler를 만들 다음 sampling_probability를 지정해야 합니다.\n", "# (see https://github.com/tensorflow/addons/pull/1714)\n", "sampler.sampling_probability = tf.Variable(0.)\n", "\n", "decoder_cell = keras.layers.LSTMCell(units)\n", "output_layer = keras.layers.Dense(len(OUTPUT_CHARS) + 1)\n", "\n", "decoder = tfa.seq2seq.basic_decoder.BasicDecoder(decoder_cell,\n", " sampler,\n", " output_layer=output_layer)\n", "final_outputs, final_state, final_sequence_lengths = decoder(\n", " decoder_embeddings,\n", " initial_state=encoder_state)\n", "Y_proba = keras.layers.Activation(\"softmax\")(final_outputs.rnn_output)\n", "\n", "model = keras.models.Model(inputs=[encoder_inputs, decoder_inputs],\n", " outputs=[Y_proba])\n", "optimizer = keras.optimizers.Nadam()\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=optimizer,\n", " metrics=[\"accuracy\"])\n", "\n", "def update_sampling_probability(epoch, logs):\n", " proba = min(1.0, epoch / (n_epochs - 10))\n", " sampler.sampling_probability.assign(proba)\n", "\n", "sampling_probability_cb = keras.callbacks.LambdaCallback(\n", " on_epoch_begin=update_sampling_probability)\n", "history = model.fit([X_train, X_train_decoder], Y_train, epochs=n_epochs,\n", " validation_data=([X_valid, X_valid_decoder], Y_valid),\n", " callbacks=[sampling_probability_cb])" ] }, { "cell_type": "markdown", "id": "9829b2a4", "metadata": { "id": "HbTw5wmGtv8s" }, "source": [ "검증 정확도가 100%는 아니지만 충분히 가깝습니다!" ] }, { "cell_type": "markdown", "id": "4eb33a17", "metadata": { "id": "Of8iaZmctv8s" }, "source": [ "추론에서도 `GreedyEmbeddingSampler`를 사용해 앞에서와 동일한 작업을 수행할 수 있습니다. 하지만 완성도를 높이기 위해 `SampleEmbeddingSampler`를 사용하겠습니다. 토큰 ID를 찾기 위해 모델 출력에 argmax를 적용하는 대신 로짓 출력에서 랜덤하게 토큰 ID를 샘플링하는 것만 다르고 거의 동일합니다. 텍스트를 생성하는 작업에 유용합니다. `softmax_temperature` 매개변수는 세익스피어와 같은 텍스트를 생성했을 때와 같은 목적을 가집니다(이 매개변수 값이 높을수록 더 랜덤한 텍스트가 생성됩니다)." ] }, { "cell_type": "code", "execution_count": 122, "id": "9b0763a2", "metadata": { "id": "DHerrHF_tv8s" }, "outputs": [], "source": [ "softmax_temperature = tf.Variable(1.)\n", "\n", "inference_sampler = tfa.seq2seq.sampler.SampleEmbeddingSampler(\n", " embedding_fn=decoder_embedding_layer,\n", " softmax_temperature=softmax_temperature)\n", "inference_decoder = tfa.seq2seq.basic_decoder.BasicDecoder(\n", " decoder_cell, inference_sampler, output_layer=output_layer,\n", " maximum_iterations=max_output_length)\n", "batch_size = tf.shape(encoder_inputs)[:1]\n", "start_tokens = tf.fill(dims=batch_size, value=sos_id)\n", "final_outputs, final_state, final_sequence_lengths = inference_decoder(\n", " start_tokens,\n", " initial_state=encoder_state,\n", " start_tokens=start_tokens,\n", " end_token=0)\n", "\n", "inference_model = keras.models.Model(inputs=[encoder_inputs],\n", " outputs=[final_outputs.sample_id])" ] }, { "cell_type": "code", "execution_count": 123, "id": "d07ddd2b", "metadata": { "id": "f-eod_S7tv8s" }, "outputs": [], "source": [ "def creative_predict_date_strs(date_strs, temperature=1.0):\n", " softmax_temperature.assign(temperature)\n", " X = prepare_date_strs_padded(date_strs)\n", " Y_pred = inference_model.predict(X)\n", " return ids_to_date_strs(Y_pred)" ] }, { "cell_type": "code", "execution_count": 124, "id": "2d79e38d", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "KLpi4Peztv8s", "outputId": "3cc56601-c381-4e48-ade7-efe7cc7019b5" }, "outputs": [ { "data": { "text/plain": [ "['1789-07-14', '2020-05-00']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.random.set_seed(42)\n", "\n", "creative_predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "dea7b376", "metadata": { "id": "pkFmwSV3tv8s" }, "source": [ "기본 온도에서 날짜가 괜찮은 것 같군요. 온도를 조금 더 올려 보죠:" ] }, { "cell_type": "code", "execution_count": 125, "id": "3c81fece", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "lVk5rV6Wtv8s", "outputId": "e9c31ffd-e8ac-4457-f5ec-f0b45deb610e" }, "outputs": [ { "data": { "text/plain": [ "['7479307-19', '200040?400']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.random.set_seed(42)\n", "\n", "creative_predict_date_strs([\"July 14, 1789\", \"May 01, 2020\"],\n", " temperature=5.)" ] }, { "cell_type": "markdown", "id": "1a281efc", "metadata": { "id": "xJWXvaOBtv8s" }, "source": [ "이런 날짜가 너무 랜덤하네요. \"창의적인\" 날짜라고 부르죠." ] }, { "cell_type": "markdown", "id": "aa36352c", "metadata": { "id": "6ZkGjCy-tv8s" }, "source": [ "### 다섯 번째 버전: TFA seq2seq, 케라스 서브클래싱 API, 어텐션 메커니즘 사용하기" ] }, { "cell_type": "markdown", "id": "e481c211", "metadata": { "id": "ycp3xsdWtv8s" }, "source": [ "이 문제의 시퀀스는 꽤 짧지만 긴 시퀀스를 처리하려면 어텐션 메커니즘을 사용해야 할 것입니다. 직접 어텐션 메커니즘을 구현할 수 있지만 TF-Addons에 있는 구현을 사용하는 것이 더 간단하고 효율적입니다. 케라스 서브클래싱 API를 사용해서 만들어 보죠.\n", "\n", "**경고**: 텐서플로 버그([이슈](https://github.com/tensorflow/addons/issues/1153) 참조) 때문에 즉시 실행 모드(eager mode)에서 `get_initial_state()` 메서드가 실패합니다. 따라서 지금은 `call()` 메서드에서 `tf.function()`을 자동으로 호출하는 (따라서 그래프 모드로 실행하는) 케라스 서브클래싱 API를 사용해야 합니다." ] }, { "cell_type": "markdown", "id": "a1fc8f39", "metadata": { "id": "2NbiNcPxtv8s" }, "source": [ "이 구현에서는 간단하게 만들기 위해 다시 `TrainingSampler`를 사용합니다(하지만 `ScheduledEmbeddingTrainingSampler`를 사용해 쉽게 바꿀 수 있습니다). 추론에는 `GreedyEmbeddingSampler`를 사용합니다:" ] }, { "cell_type": "code", "execution_count": 126, "id": "67b806a4", "metadata": { "id": "rGxaGZQStv8t" }, "outputs": [], "source": [ "class DateTranslation(keras.models.Model):\n", " def __init__(self, units=128, encoder_embedding_size=32,\n", " decoder_embedding_size=32, **kwargs):\n", " super().__init__(**kwargs)\n", " self.encoder_embedding = keras.layers.Embedding(\n", " input_dim=len(INPUT_CHARS) + 1,\n", " output_dim=encoder_embedding_size)\n", " self.encoder = keras.layers.LSTM(units,\n", " return_sequences=True,\n", " return_state=True)\n", " self.decoder_embedding = keras.layers.Embedding(\n", " input_dim=len(OUTPUT_CHARS) + 2,\n", " output_dim=decoder_embedding_size)\n", " self.attention = tfa.seq2seq.LuongAttention(units)\n", " decoder_inner_cell = keras.layers.LSTMCell(units)\n", " self.decoder_cell = tfa.seq2seq.AttentionWrapper(\n", " cell=decoder_inner_cell,\n", " attention_mechanism=self.attention)\n", " output_layer = keras.layers.Dense(len(OUTPUT_CHARS) + 1)\n", " self.decoder = tfa.seq2seq.BasicDecoder(\n", " cell=self.decoder_cell,\n", " sampler=tfa.seq2seq.sampler.TrainingSampler(),\n", " output_layer=output_layer)\n", " self.inference_decoder = tfa.seq2seq.BasicDecoder(\n", " cell=self.decoder_cell,\n", " sampler=tfa.seq2seq.sampler.GreedyEmbeddingSampler(\n", " embedding_fn=self.decoder_embedding),\n", " output_layer=output_layer,\n", " maximum_iterations=max_output_length)\n", "\n", " def call(self, inputs, training=None):\n", " encoder_input, decoder_input = inputs\n", " encoder_embeddings = self.encoder_embedding(encoder_input)\n", " encoder_outputs, encoder_state_h, encoder_state_c = self.encoder(\n", " encoder_embeddings,\n", " training=training)\n", " encoder_state = [encoder_state_h, encoder_state_c]\n", "\n", " self.attention(encoder_outputs,\n", " setup_memory=True)\n", " \n", " decoder_embeddings = self.decoder_embedding(decoder_input)\n", "\n", " decoder_initial_state = self.decoder_cell.get_initial_state(\n", " decoder_embeddings)\n", " decoder_initial_state = decoder_initial_state.clone(\n", " cell_state=encoder_state)\n", " \n", " if training:\n", " decoder_outputs, _, _ = self.decoder(\n", " decoder_embeddings,\n", " initial_state=decoder_initial_state,\n", " training=training)\n", " else:\n", " start_tokens = tf.zeros_like(encoder_input[:, 0]) + sos_id\n", " decoder_outputs, _, _ = self.inference_decoder(\n", " decoder_embeddings,\n", " initial_state=decoder_initial_state,\n", " start_tokens=start_tokens,\n", " end_token=0)\n", "\n", " return tf.nn.softmax(decoder_outputs.rnn_output)" ] }, { "cell_type": "code", "execution_count": 127, "id": "0cdf3a39", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "hJenC7DRtv8t", "outputId": "6ddb9904-e4c2-4ed4-826a-92534c2355b7" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Epoch 1/25\n", "313/313 [==============================] - 19s 42ms/step - loss: 2.1368 - accuracy: 0.2335 - val_loss: 2.0080 - val_accuracy: 0.2648\n", "Epoch 2/25\n", "313/313 [==============================] - 13s 41ms/step - loss: 1.8487 - accuracy: 0.3307 - val_loss: 1.5100 - val_accuracy: 0.4396\n", "Epoch 3/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 2.1037 - accuracy: 0.2437 - val_loss: 1.6046 - val_accuracy: 0.3954\n", "Epoch 4/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 1.7171 - accuracy: 0.3651 - val_loss: 2.5416 - val_accuracy: 0.2658\n", "Epoch 5/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 1.4480 - accuracy: 0.4810 - val_loss: 1.3507 - val_accuracy: 0.5063\n", "Epoch 6/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 1.3200 - accuracy: 0.5156 - val_loss: 1.2034 - val_accuracy: 0.5402\n", "Epoch 7/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 1.1148 - accuracy: 0.5612 - val_loss: 1.1936 - val_accuracy: 0.5586\n", "Epoch 8/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.9277 - accuracy: 0.5986 - val_loss: 0.9126 - val_accuracy: 0.6054\n", "Epoch 9/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.8577 - accuracy: 0.6169 - val_loss: 0.8899 - val_accuracy: 0.6176\n", "Epoch 10/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.7644 - accuracy: 0.6612 - val_loss: 0.7695 - val_accuracy: 0.6752\n", "Epoch 11/25\n", "313/313 [==============================] - 12s 40ms/step - loss: 0.7101 - accuracy: 0.6922 - val_loss: 0.7124 - val_accuracy: 0.6978\n", "Epoch 12/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.6503 - accuracy: 0.7088 - val_loss: 0.6945 - val_accuracy: 0.7086\n", "Epoch 13/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.6199 - accuracy: 0.7190 - val_loss: 0.6227 - val_accuracy: 0.7230\n", "Epoch 14/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.6372 - accuracy: 0.7171 - val_loss: 0.6330 - val_accuracy: 0.7210\n", "Epoch 15/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.5939 - accuracy: 0.7314 - val_loss: 0.6056 - val_accuracy: 0.7382\n", "Epoch 16/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.6529 - accuracy: 0.7228 - val_loss: 0.5973 - val_accuracy: 0.7352\n", "Epoch 17/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.5760 - accuracy: 0.7416 - val_loss: 0.5807 - val_accuracy: 0.7454\n", "Epoch 18/25\n", "313/313 [==============================] - 12s 40ms/step - loss: 0.5532 - accuracy: 0.7517 - val_loss: 0.5717 - val_accuracy: 0.7523\n", "Epoch 19/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.5168 - accuracy: 0.7727 - val_loss: 0.8258 - val_accuracy: 0.7143\n", "Epoch 20/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.3717 - accuracy: 0.8395 - val_loss: 0.7097 - val_accuracy: 0.7858\n", "Epoch 21/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.2551 - accuracy: 0.9105 - val_loss: 0.3303 - val_accuracy: 0.9349\n", "Epoch 22/25\n", "313/313 [==============================] - 13s 41ms/step - loss: 0.1716 - accuracy: 0.9569 - val_loss: 0.2559 - val_accuracy: 0.9586\n", "Epoch 23/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.0999 - accuracy: 0.9795 - val_loss: 0.1478 - val_accuracy: 0.9835\n", "Epoch 24/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.0724 - accuracy: 0.9858 - val_loss: 0.1377 - val_accuracy: 0.9775\n", "Epoch 25/25\n", "313/313 [==============================] - 13s 40ms/step - loss: 0.0576 - accuracy: 0.9853 - val_loss: 0.0527 - val_accuracy: 0.9877\n" ] } ], "source": [ "np.random.seed(42)\n", "tf.random.set_seed(42)\n", "\n", "model = DateTranslation()\n", "optimizer = keras.optimizers.Nadam()\n", "model.compile(loss=\"sparse_categorical_crossentropy\", optimizer=optimizer,\n", " metrics=[\"accuracy\"])\n", "history = model.fit([X_train, X_train_decoder], Y_train, epochs=25,\n", " validation_data=([X_valid, X_valid_decoder], Y_valid))" ] }, { "cell_type": "markdown", "id": "41629de6", "metadata": { "id": "lGMYbeSCtv8t" }, "source": [ "100% 검증 정확도는 아니지만 매우 가깝습니다. 수렴하는데 조금 오래 걸렸지만 반복마다 파라미터와 계산량이 많습니다. 그리고 스케줄 샘플러를 사용하지 않았습니다\n", "\n", "이 모델을 사용하기 위해 또 다른 작은 함수를 만듭니다:" ] }, { "cell_type": "code", "execution_count": 128, "id": "9dbea213", "metadata": { "id": "xrzcaX6mtv8t" }, "outputs": [], "source": [ "def fast_predict_date_strs_v2(date_strs):\n", " X = prepare_date_strs_padded(date_strs)\n", " X_decoder = tf.zeros(shape=(len(X), max_output_length), dtype=tf.int32)\n", " Y_probas = model.predict([X, X_decoder])\n", " Y_pred = tf.argmax(Y_probas, axis=-1)\n", " return ids_to_date_strs(Y_pred)" ] }, { "cell_type": "code", "execution_count": 129, "id": "22b632ca", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "pOygdiuDtv8t", "outputId": "03507f10-a73a-4991-821f-1120c07e94ea" }, "outputs": [ { "data": { "text/plain": [ "['1789-06-14', '181805-015']" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "fast_predict_date_strs_v2([\"July 14, 1789\", \"May 01, 2020\"])" ] }, { "cell_type": "markdown", "id": "23100622", "metadata": { "id": "fSlnKiXptv8t" }, "source": [ "TF-Addons에는 몇 가지 흥미로운 기능이 있습니다:\n", "* 추론에 `BasicDecoder` 대신 `BeamSearchDecoder`를 사용하면 가장 높은 확률의 문자를 출력하는 대신 디코더가 몇 개의 후보 중에서 가장 가능성 있는 시퀀스만 유지합니다(자세한 내용은 책 16장을 참고하세요).\n", "* 입력이나 타깃 시퀀스의 길이가 매우 다르면 마스크를 설정하거나 `sequence_length`를 지정합니다.\n", "* `ScheduledEmbeddingTrainingSampler` 보다 더 유연한 `ScheduledOutputTrainingSampler`을 사용하여 타임 스텝 _t_의 출력을 타임 스텝 _t_+1에 주입하는 방법을 결정합니다. 기본적으로 argmax로 ID를 찾지 않고 임베딩 층에 통과시켜 출력을 셀에 바로 주입합니다. 또는 `next_inputs_fn` 함수를 지정하여 셀 출력을 다음 스텝의 입력으로 변환할 수 있습니다." ] }, { "cell_type": "markdown", "id": "12a06b02", "metadata": { "id": "DyIUU7iwtv8u" }, "source": [ "## 10.\n", "_연습문제: 텐서플로의 [Neural Machine Translation with Attention(어텐션을 사용한 신경망 기계 번역)](https://homl.info/nmttuto) 튜토리얼을 살펴 보세요._" ] }, { "cell_type": "markdown", "id": "973103c7", "metadata": { "id": "lLketeOjtv8u" }, "source": [ "코랩에서 페이지를 열고 설명을 따라 하세요. 또는 TF-Addons의 seq2seq 구현을 사용한 간단한 신경망 기계 번역 예제를 원하면 이전 문제의 솔루션을 확인하세요. 마지막 모델이 TF-Addons을 사용해 어텐션 메커니즘으로 NMT 모델을 만드는 간단한 예를 볼 수 있습니다." ] }, { "cell_type": "markdown", "id": "9b2a8b19", "metadata": { "id": "G5TgfNSAtv8u" }, "source": [ "## 11.\n", "_연습문제: 최신 언어 모델 중 하나(예를 들어 BERT)로 세익스피어가 쓴 것 같은 텍스트를 생성해보세요._" ] }, { "cell_type": "markdown", "id": "57906b60", "metadata": { "id": "k6K-yFNhtv8u" }, "source": [ "최신 언어 모델을 사용하는 가장 간단한 방법은 허깅 페이스의 오픈 소스 라이브러리인 [트랜스포머스](https://huggingface.co/transformers/)를 사용하는 것입니다. 이 라이브러리는 자연어 처리(NLP)를 위한 최신 신경망 구조(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet 등)와 사전훈련된 모델을 많이 제공합니다. 텐서플로와 파이토치를 지원합니다. 무엇보다도 사용하기 매우 쉽습니다." ] }, { "cell_type": "markdown", "id": "4d971a02", "metadata": { "id": "G2XnpwzVtv8u" }, "source": [ "먼저 사전훈련된 모델을 로드해 보죠. 이 예제에서 추가적인 언어 모델(입력 임베딩에 연결된 가중치를 가진 선형층)을 위에 얹은 OpenAI의 GPT 모델을 사용하겠습니다. 모델을 임포트하고 사전훈련된 가중치를 로드합니다(약 445MB의 데이터가 `~/.cache/torch/transformers`에 다운로드됩니다):" ] }, { "cell_type": "code", "execution_count": 130, "id": "0d0e9f47", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 141, "referenced_widgets": [ "9cfa61c805664e2bbb15cd8e86136c20", "30fdc919e05d48d78442166df9d87475" ] }, "id": "T0M1gzwhtv8u", "outputId": "a0487be1-6bd0-436b-fd95-f62cb068abd3" }, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "9cfa61c805664e2bbb15cd8e86136c20", "version_major": 2, "version_minor": 0 }, "text/plain": [ "Downloading: 0%| | 0.00/656 [00:00" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "prompt_text = \"This royal throne of kings, this sceptred isle\"\n", "encoded_prompt = tokenizer.encode(prompt_text,\n", " add_special_tokens=False,\n", " return_tensors=\"tf\")\n", "encoded_prompt" ] }, { "cell_type": "markdown", "id": "9227bec3", "metadata": { "id": "_pLNPN5-tv8u" }, "source": [ "쉽군요! 그다음 이 모델을 사용해 시작 텍스트 다음에 이어지는 텍스트를 생성해 보겠습니다. 시작 텍스트 다음에 40개의 토큰을 이어서 다섯 개의 다른 문장을 생성합니다. 하이퍼파라미터에 대한 자세한 내용은 (허깅 페이스) Patrick von Platen의 [블로그](https://huggingface.co/blog/how-to-generate)를 참고하세요. 더 나은 결과를 얻기 위해 하이퍼파라미터를 조정해 볼 수 있습니다." ] }, { "cell_type": "code", "execution_count": 133, "id": "e13da48e", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "ElEOscvytv8u", "outputId": "2d01a00d-dda0-452f-a9e0-271ac010f1e8" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": null, "metadata": {}, "output_type": "execute_result" } ], "source": [ "num_sequences = 5\n", "length = 40\n", "\n", "generated_sequences = model.generate(\n", " input_ids=encoded_prompt,\n", " do_sample=True,\n", " max_length=length + len(encoded_prompt[0]),\n", " temperature=1.0,\n", " top_k=0,\n", " top_p=0.9,\n", " repetition_penalty=1.0,\n", " num_return_sequences=num_sequences,\n", ")\n", "\n", "generated_sequences" ] }, { "cell_type": "markdown", "id": "a3589382", "metadata": { "id": "pgOScr7ktv8v" }, "source": [ "생성한 시퀀스를 디코딩하여 출력해 보죠:" ] }, { "cell_type": "code", "execution_count": 134, "id": "68d0877d", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "cMTt9J29tv8v", "outputId": "ec0e9284-e3f4-4a4c-c81e-ba2cc134a89e" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "this royal throne of kings, this sceptred isle, was the largest collection of such affairs. the problem is that the descendents of the earls of astoria were under the rule of the sages and the throne took precedence over those who were forced\n", "--------------------------------------------------------------------------------\n", "this royal throne of kings, this sceptred isle has passed as the beginning of the age of kings. \" \n", " \" well done, my lord. \" velvet complimented her lord. \" what would you like to see? \" \n", " the lady's eyes\n", "--------------------------------------------------------------------------------\n", "this royal throne of kings, this sceptred isle. the bones of all my comrades, including those of my ex - lady, lie crushed upon my battlefield.'\n", "'ah,'said the king,'i must consult my contacts, and\n", "--------------------------------------------------------------------------------\n", "this royal throne of kings, this sceptred isle he was born in, this door he had placed before him, it is located in the heart of galdir on the outer edge of the isle, his line can be found through the houses of gal\n", "--------------------------------------------------------------------------------\n", "this royal throne of kings, this sceptred isle, \n", " and the pendragon's portal, too, the lord of light. \n", " \" in the course of the seven pillars, ye shall find all treasure, \" \n", " there is now three bodies in\n", "--------------------------------------------------------------------------------\n" ] } ], "source": [ "for sequence in generated_sequences:\n", " text = tokenizer.decode(sequence, clean_up_tokenization_spaces=True)\n", " print(text)\n", " print(\"-\" * 80)" ] }, { "cell_type": "markdown", "id": "74d3dff4", "metadata": { "id": "ez2vcMLYtv8v" }, "source": [ "GPT-2, CTRL, Transformer-XL, XLNet와 같이 더 최신의 (그리고 더 큰) 모델을 시도해 볼 수 있습니다. 다양한 언어 모델과 함께 트랜스포머스 라이브러리에 모두 사전훈련된 모델로 준비되어 있습니다. 모델마다 전처리 단계는 조금씩 다르므로 트랜스포머스 문서에 있는 [생성 예제](https://github.com/huggingface/transformers/blob/master/examples/run_generation.py)를 참고하세요(이 예제는 파이토치를 사용하지만 모델 클래스 이름의 시작 부분을 `TF`로 바꾸고 `.to()` 메서드 호출을 삭제하고 `\"pt\"` 대신에 `return_tensors=\"tf\"`를 사용하면 텐서플로를 사용할 수 있습니다)." ] }, { "cell_type": "markdown", "id": "14da14b8", "metadata": { "id": "TbduRAdStv8v" }, "source": [ "이 장이 재미있었기를 바랍니다! :)" ] } ], "metadata": { "accelerator": "GPU", "colab": { "name": "16_nlp_with_rnns_and_attention.ipynb", "provenance": [] }, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.3" }, "nav_menu": {}, "toc": { "navigate_menu": true, "number_sections": true, "sideBar": true, "threshold": 6, "toc_cell": false, "toc_section_display": "block", "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 5 }