{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Using TensorFlow backend.\n" ] }, { "data": { "text/plain": [ "'2.2.4'" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import keras\n", "keras.__version__" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Understanding recurrent neural networks\n", "\n", "이 노트북은 [케라스 창시자에게 배우는 딥러닝](https://tensorflow.blog/케라스-창시자에게-배우는-딥러닝/) 책의 6장 2절의 코드 예제입니다. 책에는 더 많은 내용과 그림이 있습니다. 이 노트북에는 소스 코드에 관련된 설명만 포함합니다. 이 노트북의 설명은 케라스 버전 2.2.2에 맞추어져 있습니다. 케라스 최신 버전이 릴리스되면 노트북을 다시 테스트하기 때문에 설명과 코드의 결과가 조금 다를 수 있습니다.\n", "\n", "---\n", "\n", "[...]\n", "\n", "## 케라스의 순환 층\n", "\n", "\n", "넘파이로 간단하게 구현한 과정이 실제 케라스의 `SimpleRNN` 층에 해당합니다:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "from keras.layers import SimpleRNN" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`SimpleRNN`이 한 가지 다른 점은 넘파이 예제처럼 하나의 시퀀스가 아니라 다른 케라스 층과 마찬가지로 시퀀스 배치를 처리한다는 것입니다. 즉, `(timesteps, input_features)` 크기가 아니라 `(batch_size, timesteps, input_features)` 크기의 입력을 받습니다.\n", "\n", "케라스에 있는 모든 순환 층과 동일하게 `SimpleRNN`은 두 가지 모드로 실행할 수 있습니다. 각 타임스텝의 출력을 모은 전체 시퀀스를 반환하거나(크기가 `(batch_size, timesteps, output_features)`인 3D 텐서), 입력 시퀀스에 대한 마지막 출력만 반환할 수 있습니다(크기가 `(batch_size, output_features)`인 2D 텐서). 이 모드는 객체를 생성할 때 `return_sequences` 매개변수로 선택할 수 있습니다. 예제를 살펴보죠:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "embedding_1 (Embedding) (None, None, 32) 320000 \n", "_________________________________________________________________\n", "simple_rnn_1 (SimpleRNN) (None, 32) 2080 \n", "=================================================================\n", "Total params: 322,080\n", "Trainable params: 322,080\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "from keras.models import Sequential\n", "from keras.layers import Embedding, SimpleRNN\n", "\n", "model = Sequential()\n", "model.add(Embedding(10000, 32))\n", "model.add(SimpleRNN(32))\n", "model.summary()" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "embedding_2 (Embedding) (None, None, 32) 320000 \n", "_________________________________________________________________\n", "simple_rnn_2 (SimpleRNN) (None, None, 32) 2080 \n", "=================================================================\n", "Total params: 322,080\n", "Trainable params: 322,080\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "model = Sequential()\n", "model.add(Embedding(10000, 32))\n", "model.add(SimpleRNN(32, return_sequences=True))\n", "model.summary()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "네트워크의 표현력을 증가시키기 위해 여러 개의 순환 층을 차례대로 쌓는 것이 유용할 때가 있습니다. 이런 설정에서는 중간 층들이 전체 출력 시퀀스를 반환하도록 설정해야 합니다:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "embedding_3 (Embedding) (None, None, 32) 320000 \n", "_________________________________________________________________\n", "simple_rnn_3 (SimpleRNN) (None, None, 32) 2080 \n", "_________________________________________________________________\n", "simple_rnn_4 (SimpleRNN) (None, None, 32) 2080 \n", "_________________________________________________________________\n", "simple_rnn_5 (SimpleRNN) (None, None, 32) 2080 \n", "_________________________________________________________________\n", "simple_rnn_6 (SimpleRNN) (None, 32) 2080 \n", "=================================================================\n", "Total params: 328,320\n", "Trainable params: 328,320\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "model = Sequential()\n", "model.add(Embedding(10000, 32))\n", "model.add(SimpleRNN(32, return_sequences=True))\n", "model.add(SimpleRNN(32, return_sequences=True))\n", "model.add(SimpleRNN(32, return_sequences=True))\n", "model.add(SimpleRNN(32)) # 맨 위 층만 마지막 출력을 반환합니다.\n", "model.summary()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 IMDB 영화 리뷰 분류 문제에 적용해 보죠. 먼저 데이터를 전처리합니다:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "데이터 로딩...\n", "25000 훈련 시퀀스\n", "25000 테스트 시퀀스\n", "시퀀스 패딩 (samples x time)\n", "input_train 크기: (25000, 500)\n", "input_test 크기: (25000, 500)\n" ] } ], "source": [ "from keras.datasets import imdb\n", "from keras.preprocessing import sequence\n", "\n", "max_features = 10000 # 특성으로 사용할 단어의 수\n", "maxlen = 500 # 사용할 텍스트의 길이(가장 빈번한 max_features 개의 단어만 사용합니다)\n", "batch_size = 32\n", "\n", "print('데이터 로딩...')\n", "(input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features)\n", "print(len(input_train), '훈련 시퀀스')\n", "print(len(input_test), '테스트 시퀀스')\n", "\n", "print('시퀀스 패딩 (samples x time)')\n", "input_train = sequence.pad_sequences(input_train, maxlen=maxlen)\n", "input_test = sequence.pad_sequences(input_test, maxlen=maxlen)\n", "print('input_train 크기:', input_train.shape)\n", "print('input_test 크기:', input_test.shape)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Embedding` 층과 `SimpleRNN` 층을 사용해 간단한 순환 네트워크를 훈련시켜 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Train on 20000 samples, validate on 5000 samples\n", "Epoch 1/10\n", "20000/20000 [==============================] - 16s 782us/step - loss: 0.6448 - acc: 0.6115 - val_loss: 0.6156 - val_acc: 0.6736\n", "Epoch 2/10\n", "20000/20000 [==============================] - 15s 747us/step - loss: 0.4175 - acc: 0.8193 - val_loss: 0.3661 - val_acc: 0.8476\n", "Epoch 3/10\n", "20000/20000 [==============================] - 15s 745us/step - loss: 0.3060 - acc: 0.8759 - val_loss: 0.4140 - val_acc: 0.8112\n", "Epoch 4/10\n", "20000/20000 [==============================] - 15s 746us/step - loss: 0.2431 - acc: 0.9046 - val_loss: 0.3548 - val_acc: 0.8496\n", "Epoch 5/10\n", "20000/20000 [==============================] - 15s 746us/step - loss: 0.1911 - acc: 0.9294 - val_loss: 0.3922 - val_acc: 0.8422\n", "Epoch 6/10\n", "20000/20000 [==============================] - 15s 748us/step - loss: 0.1410 - acc: 0.9494 - val_loss: 0.3733 - val_acc: 0.8578\n", "Epoch 7/10\n", "20000/20000 [==============================] - 15s 746us/step - loss: 0.0995 - acc: 0.9662 - val_loss: 0.4511 - val_acc: 0.8466\n", "Epoch 8/10\n", "20000/20000 [==============================] - 15s 746us/step - loss: 0.0647 - acc: 0.9796 - val_loss: 0.4689 - val_acc: 0.8410\n", "Epoch 9/10\n", "20000/20000 [==============================] - 15s 746us/step - loss: 0.0402 - acc: 0.9882 - val_loss: 0.5292 - val_acc: 0.8382\n", "Epoch 10/10\n", "20000/20000 [==============================] - 15s 747us/step - loss: 0.0247 - acc: 0.9930 - val_loss: 0.5893 - val_acc: 0.8314\n" ] } ], "source": [ "from keras.layers import Dense\n", "\n", "model = Sequential()\n", "model.add(Embedding(max_features, 32))\n", "model.add(SimpleRNN(32))\n", "model.add(Dense(1, activation='sigmoid'))\n", "\n", "model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])\n", "history = model.fit(input_train, y_train,\n", " epochs=10,\n", " batch_size=128,\n", " validation_split=0.2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 훈련과 검증의 손실과 정확도를 그래프로 그립니다:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "acc = history.history['acc']\n", "val_acc = history.history['val_acc']\n", "loss = history.history['loss']\n", "val_loss = history.history['val_loss']\n", "\n", "epochs = range(1, len(acc) + 1)\n", "\n", "plt.plot(epochs, acc, 'bo', label='Training acc')\n", "plt.plot(epochs, val_acc, 'b', label='Validation acc')\n", "plt.title('Training and validation accuracy')\n", "plt.legend()\n", "\n", "plt.figure()\n", "\n", "plt.plot(epochs, loss, 'bo', label='Training loss')\n", "plt.plot(epochs, val_loss, 'b', label='Validation loss')\n", "plt.title('Training and validation loss')\n", "plt.legend()\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "3장에서 이 데이터셋을 사용한 첫 번째 모델에서 얻은 테스트 정확도는 87%였습니다. 안타깝지만 간단한 순환 네트워크는 이 기준 모델보다 성능이 높지 않습니다(85% 정도의 검증 정확도를 얻었습니다). 이런 원인은 전체 시퀀스가 아니라 처음 500개의 단어만 입력에 사용했기 때문입니다. 이 RNN은 기준 모델보다 얻은 정보가 적습니다. 다른 이유는 `SimpleRNN`이 텍스트와 같이 긴 시퀀스를 처리하는데 적합하지 않기 때문입니다. 더 잘 작동하는 다른 순환 층이 있습니다. 조금 더 고급 순환 층을 살펴보죠." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "[...]\n", "\n", "## 케라스를 사용한 LSTM 예제\n", "\n", "이제 실제적인 관심사로 이동해 보죠. LSTM 층으로 모델을 구성하고 IMDB 데이터에서 훈련해 보겠습니다(그림 6-16과 6-17 참조). 이 네트워크는 조금 전 `SimpleRNN`을 사용했던 모델과 비슷합니다. LSTM 층은 출력 차원만 지정하고 다른 (많은) 매개변수는 케라스의 기본값으로 남겨 두었습니다. 케라스는 좋은 기본값을 가지고 있어서 직접 매개변수를 튜닝하는 데 시간을 쓰지 않고도 거의 항상 어느정도 작동하는 모델을 얻을 수 있습니다." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Train on 20000 samples, validate on 5000 samples\n", "Epoch 1/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.5098 - acc: 0.7607 - val_loss: 0.3865 - val_acc: 0.8426\n", "Epoch 2/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.2890 - acc: 0.8881 - val_loss: 0.3126 - val_acc: 0.8628\n", "Epoch 3/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.2334 - acc: 0.9099 - val_loss: 0.3473 - val_acc: 0.8748\n", "Epoch 4/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1988 - acc: 0.9259 - val_loss: 0.5105 - val_acc: 0.8396\n", "Epoch 5/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1791 - acc: 0.9357 - val_loss: 0.3094 - val_acc: 0.8860\n", "Epoch 6/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1538 - acc: 0.9442 - val_loss: 0.3092 - val_acc: 0.8884\n", "Epoch 7/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1429 - acc: 0.9492 - val_loss: 0.4297 - val_acc: 0.8772\n", "Epoch 8/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1313 - acc: 0.9534 - val_loss: 0.3242 - val_acc: 0.8802\n", "Epoch 9/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1174 - acc: 0.9594 - val_loss: 0.3437 - val_acc: 0.8886\n", "Epoch 10/10\n", "20000/20000 [==============================] - 72s 4ms/step - loss: 0.1116 - acc: 0.9607 - val_loss: 0.3777 - val_acc: 0.8830\n" ] } ], "source": [ "from keras.layers import LSTM\n", "\n", "model = Sequential()\n", "model.add(Embedding(max_features, 32))\n", "model.add(LSTM(32))\n", "model.add(Dense(1, activation='sigmoid'))\n", "\n", "model.compile(optimizer='rmsprop',\n", " loss='binary_crossentropy',\n", " metrics=['acc'])\n", "history = model.fit(input_train, y_train,\n", " epochs=10,\n", " batch_size=128,\n", " validation_split=0.2)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "acc = history.history['acc']\n", "val_acc = history.history['val_acc']\n", "loss = history.history['loss']\n", "val_loss = history.history['val_loss']\n", "\n", "epochs = range(1, len(acc) + 1)\n", "\n", "plt.plot(epochs, acc, 'bo', label='Training acc')\n", "plt.plot(epochs, val_acc, 'b', label='Validation acc')\n", "plt.title('Training and validation accuracy')\n", "plt.legend()\n", "\n", "plt.figure()\n", "\n", "plt.plot(epochs, loss, 'bo', label='Training loss')\n", "plt.plot(epochs, val_loss, 'b', label='Validation loss')\n", "plt.title('Training and validation loss')\n", "plt.legend()\n", "\n", "plt.show()" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.6" } }, "nbformat": 4, "nbformat_minor": 2 }