{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": { "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPython 3.6.8\n", "IPython 7.2.0\n", "\n", "numpy 1.15.4\n", "sklearn 0.20.2\n", "scipy 1.1.0\n", "matplotlib 3.0.2\n", "tensorflow 1.13.1\n" ] } ], "source": [ "%load_ext watermark\n", "%watermark -v -p numpy,sklearn,scipy,matplotlib,tensorflow" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**11장 – 심층 신경망 훈련**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "_이 노트북은 11장에 있는 모든 샘플 코드를 가지고 있습니다._" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 설정" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "파이썬 2와 3을 모두 지원합니다. 공통 모듈을 임포트하고 맷플롯립 그림이 노트북 안에 포함되도록 설정하고 생성한 그림을 저장하기 위한 함수를 준비합니다:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# 파이썬 2와 파이썬 3 지원\n", "from __future__ import division, print_function, unicode_literals\n", "\n", "# 공통\n", "import numpy as np\n", "import os\n", "\n", "# 일관된 출력을 위해 유사난수 초기화\n", "def reset_graph(seed=42):\n", " tf.reset_default_graph()\n", " tf.set_random_seed(seed)\n", " np.random.seed(seed)\n", "\n", "# 맷플롯립 설정\n", "%matplotlib inline\n", "import matplotlib\n", "import matplotlib.pyplot as plt\n", "plt.rcParams['axes.labelsize'] = 14\n", "plt.rcParams['xtick.labelsize'] = 12\n", "plt.rcParams['ytick.labelsize'] = 12\n", "\n", "# 한글출력\n", "plt.rcParams['font.family'] = 'NanumBarunGothic'\n", "plt.rcParams['axes.unicode_minus'] = False\n", "\n", "# 그림을 저장할 폴더\n", "PROJECT_ROOT_DIR = \".\"\n", "CHAPTER_ID = \"deep\"\n", "\n", "def save_fig(fig_id, tight_layout=True):\n", " path = os.path.join(PROJECT_ROOT_DIR, \"images\", CHAPTER_ID, fig_id + \".png\")\n", " if tight_layout:\n", " plt.tight_layout()\n", " plt.savefig(path, format='png', dpi=300)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 그래디언트 소실/폭주 문제" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "def logit(z):\n", " return 1 / (1 + np.exp(-z))" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "z = np.linspace(-5, 5, 200)\n", "\n", "plt.plot([-5, 5], [0, 0], 'k-')\n", "plt.plot([-5, 5], [1, 1], 'k--')\n", "plt.plot([0, 0], [-0.2, 1.2], 'k-')\n", "plt.plot([-5, 5], [-3/4, 7/4], 'g--')\n", "plt.plot(z, logit(z), \"b-\", linewidth=2)\n", "props = dict(facecolor='black', shrink=0.1)\n", "plt.annotate('수렴', xytext=(3.5, 0.7), xy=(5, 1), arrowprops=props, fontsize=14, ha=\"center\")\n", "plt.annotate('수렴', xytext=(-3.5, 0.3), xy=(-5, 0), arrowprops=props, fontsize=14, ha=\"center\")\n", "plt.annotate('선형', xytext=(2, 0.2), xy=(0, 0.5), arrowprops=props, fontsize=14, ha=\"center\")\n", "plt.grid(True)\n", "plt.title(\"로지스틱 활성화 함수\", fontsize=14)\n", "plt.axis([-5, 5, -0.2, 1.2])\n", "\n", "save_fig(\"sigmoid_saturation_plot\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Xavier와 He 초기화" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "import tensorflow as tf" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "WARNING:tensorflow:From :3: dense (from tensorflow.python.layers.core) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Use keras.layers.dense instead.\n", "WARNING:tensorflow:From /home/haesun/anaconda3/envs/handson-ml/lib/python3.6/site-packages/tensorflow/python/framework/op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Colocations handled automatically by placer.\n" ] } ], "source": [ "he_init = tf.variance_scaling_initializer()\n", "hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu,\n", " kernel_initializer=he_init, name=\"hidden1\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 수렴하지 않는 활성화 함수" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Leaky ReLU" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "def leaky_relu(z, alpha=0.01):\n", " return np.maximum(alpha*z, z)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.plot(z, leaky_relu(z, 0.05), \"b-\", linewidth=2)\n", "plt.plot([-5, 5], [0, 0], 'k-')\n", "plt.plot([0, 0], [-0.5, 4.2], 'k-')\n", "plt.grid(True)\n", "props = dict(facecolor='black', shrink=0.1)\n", "plt.annotate('통과', xytext=(-3.5, 0.5), xy=(-5, -0.2), arrowprops=props, fontsize=14, ha=\"center\")\n", "plt.title(\"Leaky ReLU 활성화 함수\", fontsize=14)\n", "plt.axis([-5, 5, -0.5, 4.2])\n", "\n", "save_fig(\"leaky_relu_plot\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "텐서플로에서 Leaky ReLU 구현하기:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "_텐서플로 1.4에서 tf.nn.leaky_\\__relu(z, alpha) 함수가 추가되었습니다._" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "def leaky_relu(z, name=None):\n", " return tf.maximum(0.01 * z, z, name=name)\n", "\n", "hidden1 = tf.layers.dense(X, n_hidden1, activation=leaky_relu, name=\"hidden1\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Leaky ReLU를 사용하여 신경망을 훈련시켜 보죠. 먼저 그래프를 정의합니다:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 100\n", "n_outputs = 10" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=leaky_relu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=leaky_relu, name=\"hidden2\")\n", " logits = tf.layers.dense(hidden2, n_outputs, name=\"outputs\")" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "learning_rate = 0.01\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "데이터를 로드합니다:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "주의: `tf.examples.tutorials.mnist`은 삭제될 예정이므로 대신 `tf.keras.datasets.mnist`를 사용하겠습니다." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [], "source": [ "(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()\n", "X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0\n", "X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0\n", "y_train = y_train.astype(np.int32)\n", "y_test = y_test.astype(np.int32)\n", "X_valid, X_train = X_train[:5000], X_train[5000:]\n", "y_valid, y_train = y_train[:5000], y_train[5000:]" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "def shuffle_batch(X, y, batch_size):\n", " rnd_idx = np.random.permutation(len(X))\n", " n_batches = len(X) // batch_size\n", " for batch_idx in np.array_split(rnd_idx, n_batches):\n", " X_batch, y_batch = X[batch_idx], y[batch_idx]\n", " yield X_batch, y_batch" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "# from tensorflow.examples.tutorials.mnist import input_data\n", "# mnist = input_data.read_data_sets(\"/tmp/data/\")" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 배치 데이터 정확도: 0.86 검증 세트 정확도: 0.9046\n", "5 배치 데이터 정확도: 0.94 검증 세트 정확도: 0.9496\n", "10 배치 데이터 정확도: 0.92 검증 세트 정확도: 0.9652\n", "15 배치 데이터 정확도: 0.94 검증 세트 정확도: 0.9708\n", "20 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9762\n", "25 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9776\n", "30 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.9782\n", "35 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9788\n" ] } ], "source": [ "n_epochs = 40\n", "batch_size = 50\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " if epoch % 5 == 0:\n", " acc_batch = accuracy.eval(feed_dict={X: X_batch, y: y_batch})\n", " acc_valid = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"배치 데이터 정확도:\", acc_batch, \"검증 세트 정확도:\", acc_valid)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### ELU" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "def elu(z, alpha=1):\n", " return np.where(z < 0, alpha * (np.exp(z) - 1), z)" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.plot(z, elu(z), \"b-\", linewidth=2)\n", "plt.plot([-5, 5], [0, 0], 'k-')\n", "plt.plot([-5, 5], [-1, -1], 'k--')\n", "plt.plot([0, 0], [-2.2, 3.2], 'k-')\n", "plt.grid(True)\n", "plt.title(r\"ELU 활성화 함수 ($\\alpha=1$)\", fontsize=14)\n", "plt.axis([-5, 5, -2.2, 3.2])\n", "\n", "save_fig(\"elu_plot\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "텐서플로에서 ELU를 구현하는 것은 간단합니다. 층을 구성할 때 활성화 함수에 지정하기만 하면 됩니다:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [], "source": [ "hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.elu, name=\"hidden1\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### SELU" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 활성화 함수는 Günter Klambauer, Thomas Unterthiner, Andreas Mayr가 2017년에 쓴 [논문](https://arxiv.org/pdf/1706.02515.pdf)에서 소개되었습니다(나중에 책에 추가하겠습니다). 훈련할 때 SELU 활성화 함수를 사용한 완전 연결 신경망은 스스로 정규화를 합니다. 각 층의 출력은 훈련하는 동안 같은 평균과 분산을 유지하려는 경향이 있어 그래디언트 소실과 폭주 문제를 해결합니다. 이 활성화 함수는 심층 신경망에서 다른 활성화 함수보다 뛰어난 성능을 내므로 꼭 이 함수를 시도해봐야 합니다." ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [], "source": [ "def selu(z,\n", " scale=1.0507009873554804934193349852946,\n", " alpha=1.6732632423543772848170429916717):\n", " return scale * elu(z, alpha)" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.plot(z, selu(z), \"b-\", linewidth=2)\n", "plt.plot([-5, 5], [0, 0], 'k-')\n", "plt.plot([-5, 5], [-1.758, -1.758], 'k--')\n", "plt.plot([0, 0], [-2.2, 3.2], 'k-')\n", "plt.grid(True)\n", "plt.title(r\"SELU 활성화 함수\", fontsize=14)\n", "plt.axis([-5, 5, -2.2, 3.2])\n", "\n", "save_fig(\"selu_plot\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본적으로 SELU 하이퍼파라미터(`scale`과 `alpha`)는 평균이 0, 표준 편차가 1에 가깝게 유지되도록 조정합니다(입력도 평균이 0, 표준 편차가 1로 표준화되었다고 가정합니다). 이 활성화 함수를 사용하면 100층으로 된 심층 신경망도 그래디언트 소실/폭주 문제없이 모든 층에서 대략 평균이 0이고 표준 편차가 1을 유지합니다:" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "층 0: -0.26 < 평균 < 0.27, 0.74 < 표준 편차 < 1.27\n", "층 10: -0.24 < 평균 < 0.27, 0.74 < 표준 편차 < 1.27\n", "층 20: -0.17 < 평균 < 0.18, 0.74 < 표준 편차 < 1.24\n", "층 30: -0.27 < 평균 < 0.24, 0.78 < 표준 편차 < 1.20\n", "층 40: -0.38 < 평균 < 0.39, 0.74 < 표준 편차 < 1.25\n", "층 50: -0.27 < 평균 < 0.31, 0.73 < 표준 편차 < 1.27\n", "층 60: -0.26 < 평균 < 0.43, 0.74 < 표준 편차 < 1.35\n", "층 70: -0.19 < 평균 < 0.21, 0.75 < 표준 편차 < 1.21\n", "층 80: -0.18 < 평균 < 0.16, 0.72 < 표준 편차 < 1.19\n", "층 90: -0.19 < 평균 < 0.16, 0.75 < 표준 편차 < 1.20\n" ] } ], "source": [ "np.random.seed(42)\n", "Z = np.random.normal(size=(500, 100))\n", "for layer in range(100):\n", " W = np.random.normal(size=(100, 100), scale=np.sqrt(1/100))\n", " Z = selu(np.dot(Z, W))\n", " means = np.mean(Z, axis=1)\n", " stds = np.std(Z, axis=1)\n", " if layer % 10 == 0:\n", " print(\"층 {}: {:.2f} < 평균 < {:.2f}, {:.2f} < 표준 편차 < {:.2f}\".format(\n", " layer, means.min(), means.max(), stds.min(), stds.max()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "텐서플로 1.4 버전에 `tf.nn.selu()` 함수가 추가되었습니다. 이전 버전을 사용할 때는 다음 구현을 사용합니다:" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [], "source": [ "def selu(z,\n", " scale=1.0507009873554804934193349852946,\n", " alpha=1.6732632423543772848170429916717):\n", " return scale * tf.where(z >= 0.0, z, alpha * tf.nn.elu(z))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "하지만 SELU 활성화 함수는 일반적인 드롭아웃과 함께 사용할 수 없습니다(드롭아웃은 SELU 활성화 함수의 자동 정규화 기능을 없애버립니다). 다행히 같은 논문에 실린 알파 드롭아웃(Alpha Dropout)을 사용할 수 있습니다. 텐서플로 1.4에 `tf.contrib.nn.alpha_dropout()`이 추가되었습니다(Linz 대학교 생물정보학 연구소(Institute of Bioinformatics)의 Johannes Kepler가 만든 [구현](https://github.com/bioinf-jku/SNNs/blob/master/selu.py)을 확인해 보세요)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "SELU 활성화 함수를 사용한 신경망을 만들어 MNIST 문제를 풀어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 100\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=selu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=selu, name=\"hidden2\")\n", " logits = tf.layers.dense(hidden2, n_outputs, name=\"outputs\")\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "learning_rate = 0.01\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()\n", "n_epochs = 40\n", "batch_size = 50" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 훈련할 차례입니다. 입력을 평균 0, 표준 편차 1로 스케일 조정해야 합니다:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 배치 데이터 정확도: 0.88 검증 세트 정확도: 0.923\n", "5 배치 데이터 정확도: 0.98 검증 세트 정확도: 0.9576\n", "10 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9662\n", "15 배치 데이터 정확도: 0.96 검증 세트 정확도: 0.9684\n", "20 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9692\n", "25 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9688\n", "30 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.9694\n", "35 배치 데이터 정확도: 1.0 검증 세트 정확도: 0.97\n" ] } ], "source": [ "means = X_train.mean(axis=0, keepdims=True)\n", "stds = X_train.std(axis=0, keepdims=True) + 1e-10\n", "X_val_scaled = (X_valid - means) / stds\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " X_batch_scaled = (X_batch - means) / stds\n", " sess.run(training_op, feed_dict={X: X_batch_scaled, y: y_batch})\n", " if epoch % 5 == 0:\n", " acc_batch = accuracy.eval(feed_dict={X: X_batch_scaled, y: y_batch})\n", " acc_valid = accuracy.eval(feed_dict={X: X_val_scaled, y: y_valid})\n", " print(epoch, \"배치 데이터 정확도:\", acc_batch, \"검증 세트 정확도:\", acc_valid)\n", "\n", " save_path = saver.save(sess, \"./my_model_final_selu.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 배치 정규화" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "각 은닉층의 활성화 함수 전에 배치 정규화를 추가하기 위해 ELU 활성화 함수를 배치 정규화 층 이후에 수동으로 적용하겠습니다.\n", "\n", "노트: `tf.layers.dense()` 함수가 (책에서 사용하는) `tf.contrib.layers.arg_scope()`와 호환되지 않기 때문에 대신 파이썬의 `functools.partial()` 함수를 사용합니다. 이를 사용해 `tf.layers.dense()`에 필요한 매개변수가 자동으로 설정되도록 `my_dense_layer()`를 만듭니다(그렇지 않으면 `my_dense_layer()`를 호출할 때마다 덮어씌여질 것입니다). 다른 코드는 이전과 비슷합니다." ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "WARNING:tensorflow:From :15: batch_normalization (from tensorflow.python.layers.normalization) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Use keras.layers.batch_normalization instead.\n" ] } ], "source": [ "reset_graph()\n", "\n", "import tensorflow as tf\n", "\n", "n_inputs = 28 * 28\n", "n_hidden1 = 300\n", "n_hidden2 = 100\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "\n", "training = tf.placeholder_with_default(False, shape=(), name='training')\n", "\n", "hidden1 = tf.layers.dense(X, n_hidden1, name=\"hidden1\")\n", "bn1 = tf.layers.batch_normalization(hidden1, training=training, momentum=0.9)\n", "bn1_act = tf.nn.elu(bn1)\n", "\n", "hidden2 = tf.layers.dense(bn1_act, n_hidden2, name=\"hidden2\")\n", "bn2 = tf.layers.batch_normalization(hidden2, training=training, momentum=0.9)\n", "bn2_act = tf.nn.elu(bn2)\n", "\n", "logits_before_bn = tf.layers.dense(bn2_act, n_outputs, name=\"outputs\")\n", "logits = tf.layers.batch_normalization(logits_before_bn, training=training,\n", " momentum=0.9)" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "training = tf.placeholder_with_default(False, shape=(), name='training')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "같은 매개변수를 계속 반복해서 쓰지 않도록 파이썬의 `partial()` 함수를 사용합니다:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [], "source": [ "from functools import partial\n", "\n", "my_batch_norm_layer = partial(tf.layers.batch_normalization,\n", " training=training, momentum=0.9)\n", "\n", "hidden1 = tf.layers.dense(X, n_hidden1, name=\"hidden1\")\n", "bn1 = my_batch_norm_layer(hidden1)\n", "bn1_act = tf.nn.elu(bn1)\n", "hidden2 = tf.layers.dense(bn1_act, n_hidden2, name=\"hidden2\")\n", "bn2 = my_batch_norm_layer(hidden2)\n", "bn2_act = tf.nn.elu(bn2)\n", "logits_before_bn = tf.layers.dense(bn2_act, n_outputs, name=\"outputs\")\n", "logits = my_batch_norm_layer(logits_before_bn)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "각 층에 ELU 활성화 함수와 배치 정규화를 사용하여 MNIST를 위한 신경망을 만듭니다:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "WARNING:tensorflow:From /home/haesun/anaconda3/envs/handson-ml/lib/python3.6/site-packages/tensorflow/python/ops/math_ops.py:3066: to_int32 (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Use tf.cast instead.\n" ] } ], "source": [ "reset_graph()\n", "\n", "batch_norm_momentum = 0.9\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "training = tf.placeholder_with_default(False, shape=(), name='training')\n", "\n", "with tf.name_scope(\"dnn\"):\n", " he_init = tf.variance_scaling_initializer()\n", "\n", " my_batch_norm_layer = partial(\n", " tf.layers.batch_normalization,\n", " training=training,\n", " momentum=batch_norm_momentum)\n", "\n", " my_dense_layer = partial(\n", " tf.layers.dense,\n", " kernel_initializer=he_init)\n", "\n", " hidden1 = my_dense_layer(X, n_hidden1, name=\"hidden1\")\n", " bn1 = tf.nn.elu(my_batch_norm_layer(hidden1))\n", " hidden2 = my_dense_layer(bn1, n_hidden2, name=\"hidden2\")\n", " bn2 = tf.nn.elu(my_batch_norm_layer(hidden2))\n", " logits_before_bn = my_dense_layer(bn2, n_outputs, name=\"outputs\")\n", " logits = my_batch_norm_layer(logits_before_bn)\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))\n", " \n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "노트: 배치 정규화를 위해 별도의 업데이트 연산을 실행해 주어야 합니다(`sess.run([training_op, extra_update_ops],...`)." ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [], "source": [ "n_epochs = 20\n", "batch_size = 200" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.8952\n", "1 검증 세트 정확도: 0.9202\n", "2 검증 세트 정확도: 0.9318\n", "3 검증 세트 정확도: 0.9422\n", "4 검증 세트 정확도: 0.9468\n", "5 검증 세트 정확도: 0.954\n", "6 검증 세트 정확도: 0.9568\n", "7 검증 세트 정확도: 0.96\n", "8 검증 세트 정확도: 0.962\n", "9 검증 세트 정확도: 0.9638\n", "10 검증 세트 정확도: 0.9662\n", "11 검증 세트 정확도: 0.9682\n", "12 검증 세트 정확도: 0.9672\n", "13 검증 세트 정확도: 0.9696\n", "14 검증 세트 정확도: 0.9706\n", "15 검증 세트 정확도: 0.9704\n", "16 검증 세트 정확도: 0.9718\n", "17 검증 세트 정확도: 0.9726\n", "18 검증 세트 정확도: 0.9738\n", "19 검증 세트 정확도: 0.9742\n" ] } ], "source": [ "extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run([training_op, extra_update_ops],\n", " feed_dict={training: True, X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "어!? MNIST 정확도가 좋지 않네요. 물론 훈련을 더 오래하면 정확도가 높아지겠지만 이런 얕은 신경망에서는 배치 정규화와 ELU가 큰 효과를 내지 못합니다. 대부분 심층 신경망에서 빛을 발합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "업데이트 연산에 의존하는 훈련 연산을 만들 수도 있습니다:\n", "\n", "```python\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)\n", " with tf.control_dependencies(extra_update_ops):\n", " training_op = optimizer.minimize(loss)\n", "```\n", "\n", "이렇게 하면 훈련할 때 `training_op`만 평가하면 텐서플로가 업데이트 연산도 자동으로 실행할 것입니다:\n", "\n", "```python\n", "sess.run(training_op, feed_dict={training: True, X: X_batch, y: y_batch})\n", "```" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "한가지 더, 훈련될 변수 개수가 전체 전역 변수 개수보다 적습니다. 이동 평균을 위한 변수는 훈련되는 변수가 아니기 때문입니다. 미리 학습한 신경망을 재사용할 경우(아래 참조) 이런 훈련되지 않는 변수를 놓쳐서는 안됩니다." ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['hidden1/kernel:0',\n", " 'hidden1/bias:0',\n", " 'batch_normalization/gamma:0',\n", " 'batch_normalization/beta:0',\n", " 'hidden2/kernel:0',\n", " 'hidden2/bias:0',\n", " 'batch_normalization_1/gamma:0',\n", " 'batch_normalization_1/beta:0',\n", " 'outputs/kernel:0',\n", " 'outputs/bias:0',\n", " 'batch_normalization_2/gamma:0',\n", " 'batch_normalization_2/beta:0']" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "[v.name for v in tf.trainable_variables()]" ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['hidden1/kernel:0',\n", " 'hidden1/bias:0',\n", " 'batch_normalization/gamma:0',\n", " 'batch_normalization/beta:0',\n", " 'batch_normalization/moving_mean:0',\n", " 'batch_normalization/moving_variance:0',\n", " 'hidden2/kernel:0',\n", " 'hidden2/bias:0',\n", " 'batch_normalization_1/gamma:0',\n", " 'batch_normalization_1/beta:0',\n", " 'batch_normalization_1/moving_mean:0',\n", " 'batch_normalization_1/moving_variance:0',\n", " 'outputs/kernel:0',\n", " 'outputs/bias:0',\n", " 'batch_normalization_2/gamma:0',\n", " 'batch_normalization_2/beta:0',\n", " 'batch_normalization_2/moving_mean:0',\n", " 'batch_normalization_2/moving_variance:0']" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "[v.name for v in tf.global_variables()]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 그래디언트 클리핑" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "MNIST를 위한 간단한 신경망을 만들고 그래디언트 클리핑을 적용해 보겠습니다. 시작 부분은 이전과 동일합니다(학습한 모델을 재사용하는 예를 만들기 위해 몇 개의 층을 더 추가했습니다. 아래 참조):" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_hidden3 = 50\n", "n_hidden4 = 50\n", "n_hidden5 = 50\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\")\n", " hidden3 = tf.layers.dense(hidden2, n_hidden3, activation=tf.nn.relu, name=\"hidden3\")\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name=\"hidden4\")\n", " hidden5 = tf.layers.dense(hidden4, n_hidden5, activation=tf.nn.relu, name=\"hidden5\")\n", " logits = tf.layers.dense(hidden5, n_outputs, name=\"outputs\")\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [], "source": [ "learning_rate = 0.01" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 그래디언트 클리핑을 적용합니다. 먼저 그래디언트를 구한 다음 `clip_by_value()` 함수를 사용해 클리핑하고 적용합니다:" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [], "source": [ "threshold = 1.0\n", "\n", "optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", "grads_and_vars = optimizer.compute_gradients(loss)\n", "capped_gvs = [(tf.clip_by_value(grad, -threshold, threshold), var)\n", " for grad, var in grads_and_vars]\n", "training_op = optimizer.apply_gradients(capped_gvs)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "나머지는 이전과 동일합니다:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [], "source": [ "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [], "source": [ "n_epochs = 20\n", "batch_size = 200" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.2876\n", "1 검증 세트 정확도: 0.7942\n", "2 검증 세트 정확도: 0.8794\n", "3 검증 세트 정확도: 0.9058\n", "4 검증 세트 정확도: 0.9166\n", "5 검증 세트 정확도: 0.9216\n", "6 검증 세트 정확도: 0.9296\n", "7 검증 세트 정확도: 0.9356\n", "8 검증 세트 정확도: 0.9382\n", "9 검증 세트 정확도: 0.9416\n", "10 검증 세트 정확도: 0.9456\n", "11 검증 세트 정확도: 0.947\n", "12 검증 세트 정확도: 0.9478\n", "13 검증 세트 정확도: 0.9534\n", "14 검증 세트 정확도: 0.9566\n", "15 검증 세트 정확도: 0.9566\n", "16 검증 세트 정확도: 0.9578\n", "17 검증 세트 정확도: 0.9586\n", "18 검증 세트 정확도: 0.962\n", "19 검증 세트 정확도: 0.9612\n" ] } ], "source": [ "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 학습된 모델 재사용하기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 텐서플로 모델 재사용하기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "먼저 그래프 구조를 로드해야 합니다. `import_meta_graph()` 함수가 그래프 연산들을 로드하여 기본 그래프에 적재하고 모델의 상태를 복원할 수 있도록 `Saver` 객체를 반환합니다. 기본적으로 `Saver` 객체는 `.meta` 확장자를 가진 파일에 그래프 구조를 저장하므로 이 파일을 로드해야 합니다:" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "reset_graph()" ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [], "source": [ "saver = tf.train.import_meta_graph(\"./my_model_final.ckpt.meta\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다음으로 훈련해야 할 모든 연산을 가져와야 합니다. 그래프 구조를 모를 때는 모든 연산을 출력해 볼 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "X\n", "y\n", "hidden1/kernel/Initializer/random_uniform/shape\n", "hidden1/kernel/Initializer/random_uniform/min\n", "hidden1/kernel/Initializer/random_uniform/max\n", "hidden1/kernel/Initializer/random_uniform/RandomUniform\n", "hidden1/kernel/Initializer/random_uniform/sub\n", "hidden1/kernel/Initializer/random_uniform/mul\n", "hidden1/kernel/Initializer/random_uniform\n", "hidden1/kernel\n", "hidden1/kernel/Assign\n", "hidden1/kernel/read\n", "hidden1/bias/Initializer/zeros\n", "hidden1/bias\n", "hidden1/bias/Assign\n", "hidden1/bias/read\n", "dnn/hidden1/MatMul\n", "dnn/hidden1/BiasAdd\n", "dnn/hidden1/Relu\n", "hidden2/kernel/Initializer/random_uniform/shape\n", "hidden2/kernel/Initializer/random_uniform/min\n", "hidden2/kernel/Initializer/random_uniform/max\n", "hidden2/kernel/Initializer/random_uniform/RandomUniform\n", "hidden2/kernel/Initializer/random_uniform/sub\n", "hidden2/kernel/Initializer/random_uniform/mul\n", "hidden2/kernel/Initializer/random_uniform\n", "hidden2/kernel\n", "hidden2/kernel/Assign\n", "hidden2/kernel/read\n", "hidden2/bias/Initializer/zeros\n", "hidden2/bias\n", "hidden2/bias/Assign\n", "hidden2/bias/read\n", "dnn/hidden2/MatMul\n", "dnn/hidden2/BiasAdd\n", "dnn/hidden2/Relu\n", "hidden3/kernel/Initializer/random_uniform/shape\n", "hidden3/kernel/Initializer/random_uniform/min\n", "hidden3/kernel/Initializer/random_uniform/max\n", "hidden3/kernel/Initializer/random_uniform/RandomUniform\n", "hidden3/kernel/Initializer/random_uniform/sub\n", "hidden3/kernel/Initializer/random_uniform/mul\n", "hidden3/kernel/Initializer/random_uniform\n", "hidden3/kernel\n", "hidden3/kernel/Assign\n", "hidden3/kernel/read\n", "hidden3/bias/Initializer/zeros\n", "hidden3/bias\n", "hidden3/bias/Assign\n", "hidden3/bias/read\n", "dnn/hidden3/MatMul\n", "dnn/hidden3/BiasAdd\n", "dnn/hidden3/Relu\n", "hidden4/kernel/Initializer/random_uniform/shape\n", "hidden4/kernel/Initializer/random_uniform/min\n", "hidden4/kernel/Initializer/random_uniform/max\n", "hidden4/kernel/Initializer/random_uniform/RandomUniform\n", "hidden4/kernel/Initializer/random_uniform/sub\n", "hidden4/kernel/Initializer/random_uniform/mul\n", "hidden4/kernel/Initializer/random_uniform\n", "hidden4/kernel\n", "hidden4/kernel/Assign\n", "hidden4/kernel/read\n", "hidden4/bias/Initializer/zeros\n", "hidden4/bias\n", "hidden4/bias/Assign\n", "hidden4/bias/read\n", "dnn/hidden4/MatMul\n", "dnn/hidden4/BiasAdd\n", "dnn/hidden4/Relu\n", "hidden5/kernel/Initializer/random_uniform/shape\n", "hidden5/kernel/Initializer/random_uniform/min\n", "hidden5/kernel/Initializer/random_uniform/max\n", "hidden5/kernel/Initializer/random_uniform/RandomUniform\n", "hidden5/kernel/Initializer/random_uniform/sub\n", "hidden5/kernel/Initializer/random_uniform/mul\n", "hidden5/kernel/Initializer/random_uniform\n", "hidden5/kernel\n", "hidden5/kernel/Assign\n", "hidden5/kernel/read\n", "hidden5/bias/Initializer/zeros\n", "hidden5/bias\n", "hidden5/bias/Assign\n", "hidden5/bias/read\n", "dnn/hidden5/MatMul\n", "dnn/hidden5/BiasAdd\n", "dnn/hidden5/Relu\n", "outputs/kernel/Initializer/random_uniform/shape\n", "outputs/kernel/Initializer/random_uniform/min\n", "outputs/kernel/Initializer/random_uniform/max\n", "outputs/kernel/Initializer/random_uniform/RandomUniform\n", "outputs/kernel/Initializer/random_uniform/sub\n", "outputs/kernel/Initializer/random_uniform/mul\n", "outputs/kernel/Initializer/random_uniform\n", "outputs/kernel\n", "outputs/kernel/Assign\n", "outputs/kernel/read\n", "outputs/bias/Initializer/zeros\n", "outputs/bias\n", "outputs/bias/Assign\n", "outputs/bias/read\n", "dnn/outputs/MatMul\n", "dnn/outputs/BiasAdd\n", "loss/SparseSoftmaxCrossEntropyWithLogits/Shape\n", "loss/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits\n", "loss/Const\n", "loss/loss\n", "gradients/Shape\n", "gradients/grad_ys_0\n", "gradients/Fill\n", "gradients/loss/loss_grad/Reshape/shape\n", "gradients/loss/loss_grad/Reshape\n", "gradients/loss/loss_grad/Shape\n", "gradients/loss/loss_grad/Tile\n", "gradients/loss/loss_grad/Shape_1\n", "gradients/loss/loss_grad/Shape_2\n", "gradients/loss/loss_grad/Const\n", "gradients/loss/loss_grad/Prod\n", "gradients/loss/loss_grad/Const_1\n", "gradients/loss/loss_grad/Prod_1\n", "gradients/loss/loss_grad/Maximum/y\n", "gradients/loss/loss_grad/Maximum\n", "gradients/loss/loss_grad/floordiv\n", "gradients/loss/loss_grad/Cast\n", "gradients/loss/loss_grad/truediv\n", "gradients/zeros_like\n", "gradients/loss/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits_grad/PreventGradient\n", "gradients/loss/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits_grad/ExpandDims/dim\n", "gradients/loss/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits_grad/ExpandDims\n", "gradients/loss/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits_grad/mul\n", "gradients/dnn/outputs/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/outputs/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/outputs/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/outputs/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/outputs/MatMul_grad/MatMul\n", "gradients/dnn/outputs/MatMul_grad/MatMul_1\n", "gradients/dnn/outputs/MatMul_grad/tuple/group_deps\n", "gradients/dnn/outputs/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/outputs/MatMul_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden5/Relu_grad/ReluGrad\n", "gradients/dnn/hidden5/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/hidden5/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/hidden5/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/hidden5/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden5/MatMul_grad/MatMul\n", "gradients/dnn/hidden5/MatMul_grad/MatMul_1\n", "gradients/dnn/hidden5/MatMul_grad/tuple/group_deps\n", "gradients/dnn/hidden5/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/hidden5/MatMul_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden4/Relu_grad/ReluGrad\n", "gradients/dnn/hidden4/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/hidden4/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/hidden4/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/hidden4/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden4/MatMul_grad/MatMul\n", "gradients/dnn/hidden4/MatMul_grad/MatMul_1\n", "gradients/dnn/hidden4/MatMul_grad/tuple/group_deps\n", "gradients/dnn/hidden4/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/hidden4/MatMul_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden3/Relu_grad/ReluGrad\n", "gradients/dnn/hidden3/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/hidden3/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/hidden3/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/hidden3/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden3/MatMul_grad/MatMul\n", "gradients/dnn/hidden3/MatMul_grad/MatMul_1\n", "gradients/dnn/hidden3/MatMul_grad/tuple/group_deps\n", "gradients/dnn/hidden3/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/hidden3/MatMul_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden2/Relu_grad/ReluGrad\n", "gradients/dnn/hidden2/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/hidden2/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/hidden2/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/hidden2/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden2/MatMul_grad/MatMul\n", "gradients/dnn/hidden2/MatMul_grad/MatMul_1\n", "gradients/dnn/hidden2/MatMul_grad/tuple/group_deps\n", "gradients/dnn/hidden2/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/hidden2/MatMul_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden1/Relu_grad/ReluGrad\n", "gradients/dnn/hidden1/BiasAdd_grad/BiasAddGrad\n", "gradients/dnn/hidden1/BiasAdd_grad/tuple/group_deps\n", "gradients/dnn/hidden1/BiasAdd_grad/tuple/control_dependency\n", "gradients/dnn/hidden1/BiasAdd_grad/tuple/control_dependency_1\n", "gradients/dnn/hidden1/MatMul_grad/MatMul\n", "gradients/dnn/hidden1/MatMul_grad/MatMul_1\n", "gradients/dnn/hidden1/MatMul_grad/tuple/group_deps\n", "gradients/dnn/hidden1/MatMul_grad/tuple/control_dependency\n", "gradients/dnn/hidden1/MatMul_grad/tuple/control_dependency_1\n", "clip_by_value/Minimum/y\n", "clip_by_value/Minimum\n", "clip_by_value/y\n", "clip_by_value\n", "clip_by_value_1/Minimum/y\n", "clip_by_value_1/Minimum\n", "clip_by_value_1/y\n", "clip_by_value_1\n", "clip_by_value_2/Minimum/y\n", "clip_by_value_2/Minimum\n", "clip_by_value_2/y\n", "clip_by_value_2\n", "clip_by_value_3/Minimum/y\n", "clip_by_value_3/Minimum\n", "clip_by_value_3/y\n", "clip_by_value_3\n", "clip_by_value_4/Minimum/y\n", "clip_by_value_4/Minimum\n", "clip_by_value_4/y\n", "clip_by_value_4\n", "clip_by_value_5/Minimum/y\n", "clip_by_value_5/Minimum\n", "clip_by_value_5/y\n", "clip_by_value_5\n", "clip_by_value_6/Minimum/y\n", "clip_by_value_6/Minimum\n", "clip_by_value_6/y\n", "clip_by_value_6\n", "clip_by_value_7/Minimum/y\n", "clip_by_value_7/Minimum\n", "clip_by_value_7/y\n", "clip_by_value_7\n", "clip_by_value_8/Minimum/y\n", "clip_by_value_8/Minimum\n", "clip_by_value_8/y\n", "clip_by_value_8\n", "clip_by_value_9/Minimum/y\n", "clip_by_value_9/Minimum\n", "clip_by_value_9/y\n", "clip_by_value_9\n", "clip_by_value_10/Minimum/y\n", "clip_by_value_10/Minimum\n", "clip_by_value_10/y\n", "clip_by_value_10\n", "clip_by_value_11/Minimum/y\n", "clip_by_value_11/Minimum\n", "clip_by_value_11/y\n", "clip_by_value_11\n", "GradientDescent/learning_rate\n", "GradientDescent/update_hidden1/kernel/ApplyGradientDescent\n", "GradientDescent/update_hidden1/bias/ApplyGradientDescent\n", "GradientDescent/update_hidden2/kernel/ApplyGradientDescent\n", "GradientDescent/update_hidden2/bias/ApplyGradientDescent\n", "GradientDescent/update_hidden3/kernel/ApplyGradientDescent\n", "GradientDescent/update_hidden3/bias/ApplyGradientDescent\n", "GradientDescent/update_hidden4/kernel/ApplyGradientDescent\n", "GradientDescent/update_hidden4/bias/ApplyGradientDescent\n", "GradientDescent/update_hidden5/kernel/ApplyGradientDescent\n", "GradientDescent/update_hidden5/bias/ApplyGradientDescent\n", "GradientDescent/update_outputs/kernel/ApplyGradientDescent\n", "GradientDescent/update_outputs/bias/ApplyGradientDescent\n", "GradientDescent\n", "eval/in_top_k/InTopKV2/k\n", "eval/in_top_k/InTopKV2\n", "eval/Cast\n", "eval/Const\n", "eval/accuracy\n", "init\n", "save/filename/input\n", "save/filename\n", "save/Const\n", "save/SaveV2/tensor_names\n", "save/SaveV2/shape_and_slices\n", "save/SaveV2\n", "save/control_dependency\n", "save/RestoreV2/tensor_names\n", "save/RestoreV2/shape_and_slices\n", "save/RestoreV2\n", "save/Assign\n", "save/Assign_1\n", "save/Assign_2\n", "save/Assign_3\n", "save/Assign_4\n", "save/Assign_5\n", "save/Assign_6\n", "save/Assign_7\n", "save/Assign_8\n", "save/Assign_9\n", "save/Assign_10\n", "save/Assign_11\n", "save/restore_all\n" ] } ], "source": [ "for op in tf.get_default_graph().get_operations():\n", " print(op.name)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "웁스, 연산이 엄청 많네요! 텐서보드로 그래프를 시각화해보는 것이 더 좋을 것 같습니다. 다음 코드는 주피터에서 그래프를 그려줍니다(만약 브라우저에서 보이지 않는다면 `FileWriter`로 그래프를 저장한 다음 텐서보드에서 열어 보세요):" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [], "source": [ "from tensorflow_graph_in_jupyter import show_graph" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", " \n", " " ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "show_graph(tf.get_default_graph())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "필요한 연산을 찾았다면 그래프의 `get_operation_by_name()`이나 `get_tensor_by_name()` 메서드를 사용하여 추출할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [], "source": [ "X = tf.get_default_graph().get_tensor_by_name(\"X:0\")\n", "y = tf.get_default_graph().get_tensor_by_name(\"y:0\")\n", "\n", "accuracy = tf.get_default_graph().get_tensor_by_name(\"eval/accuracy:0\")\n", "\n", "training_op = tf.get_default_graph().get_operation_by_name(\"GradientDescent\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "원본 모델을 만들 때 다른 사람이 재사용하기 쉽게 연산에 명확한 이름을 부여하고 문서화를 하는 것이 좋습니다. 또 다른 방법은 처리해야 할 중요한 연산들을 모두 모아 놓은 컬렉션을 만드는 것입니다:" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [], "source": [ "for op in (X, y, accuracy, training_op):\n", " tf.add_to_collection(\"my_important_ops\", op)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이렇게 하면 모델을 재사용할 때 다음과 같이 간단하게 쓸 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [], "source": [ "X, y, accuracy, training_op = tf.get_collection(\"my_important_ops\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 세션을 시작하고 모델을 복원하여 준비된 훈련 데이터로 훈련을 계속할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "WARNING:tensorflow:From /home/haesun/anaconda3/envs/handson-ml/lib/python3.6/site-packages/tensorflow/python/training/saver.py:1266: checkpoint_exists (from tensorflow.python.training.checkpoint_management) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Use standard file APIs to check for files with this prefix.\n", "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n" ] } ], "source": [ "with tf.Session() as sess:\n", " saver.restore(sess, \"./my_model_final.ckpt\")\n", " # 모델 훈련 계속하기..." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "실제로 테스트를 해보죠!" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9632\n", "1 검증 세트 정확도: 0.963\n", "2 검증 세트 정확도: 0.9652\n", "3 검증 세트 정확도: 0.9648\n", "4 검증 세트 정확도: 0.9644\n", "5 검증 세트 정확도: 0.9648\n", "6 검증 세트 정확도: 0.9688\n", "7 검증 세트 정확도: 0.9684\n", "8 검증 세트 정확도: 0.9684\n", "9 검증 세트 정확도: 0.9686\n", "10 검증 세트 정확도: 0.9704\n", "11 검증 세트 정확도: 0.9712\n", "12 검증 세트 정확도: 0.9674\n", "13 검증 세트 정확도: 0.97\n", "14 검증 세트 정확도: 0.971\n", "15 검증 세트 정확도: 0.9722\n", "16 검증 세트 정확도: 0.9724\n", "17 검증 세트 정확도: 0.9712\n", "18 검증 세트 정확도: 0.9714\n", "19 검증 세트 정확도: 0.9714\n" ] } ], "source": [ "with tf.Session() as sess:\n", " saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\") " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "또 다른 방법으로 원본 그래프를 만든 파이썬 코드에 접근할 수 있다면 `import_meta_graph()`를 대신 사용할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_hidden3 = 50\n", "n_hidden4 = 50\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\")\n", " hidden3 = tf.layers.dense(hidden2, n_hidden3, activation=tf.nn.relu, name=\"hidden3\")\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name=\"hidden4\")\n", " hidden5 = tf.layers.dense(hidden4, n_hidden5, activation=tf.nn.relu, name=\"hidden5\")\n", " logits = tf.layers.dense(hidden5, n_outputs, name=\"outputs\")\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "learning_rate = 0.01\n", "threshold = 1.0\n", "\n", "optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", "grads_and_vars = optimizer.compute_gradients(loss)\n", "capped_gvs = [(tf.clip_by_value(grad, -threshold, threshold), var)\n", " for grad, var in grads_and_vars]\n", "training_op = optimizer.apply_gradients(capped_gvs)\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그 다음 훈련을 계속할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9642\n", "1 검증 세트 정확도: 0.9626\n", "2 검증 세트 정확도: 0.9654\n", "3 검증 세트 정확도: 0.9652\n", "4 검증 세트 정확도: 0.964\n", "5 검증 세트 정확도: 0.9646\n", "6 검증 세트 정확도: 0.9686\n", "7 검증 세트 정확도: 0.9682\n", "8 검증 세트 정확도: 0.9684\n", "9 검증 세트 정확도: 0.9686\n", "10 검증 세트 정확도: 0.9704\n", "11 검증 세트 정확도: 0.9712\n", "12 검증 세트 정확도: 0.967\n", "13 검증 세트 정확도: 0.97\n", "14 검증 세트 정확도: 0.9712\n", "15 검증 세트 정확도: 0.9722\n", "16 검증 세트 정확도: 0.9716\n", "17 검증 세트 정확도: 0.9712\n", "18 검증 세트 정확도: 0.9714\n", "19 검증 세트 정확도: 0.9716\n" ] } ], "source": [ "with tf.Session() as sess:\n", " saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\") " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "일반적으로 하위층만 재사용할 것입니다. `import_meta_graph()`를 사용하면 전체 그래프를 로드하지만 필요하지 않은 부분은 무시하면 됩니다. 이 예에서는 학습된 3번째 층 위에 4번째 은닉층을 새로 추가합니다(원래 4번째 층은 무시됩니다). 새로운 출력층도 추가하고 이 출력으로 손실을 계산하고 이를 최소화하기 위한 새로운 옵티마이저를 만듭니다. 전체 그래프(원본 그래프 전체와 새로운 연산)를 저장할 새로운 `Saver` 객체와 새로운 모든 변수를 초기화할 초기화 연산도 필요합니다:" ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_hidden4 = 20 # 새 층\n", "n_outputs = 10 # 새 층\n", "\n", "saver = tf.train.import_meta_graph(\"./my_model_final.ckpt.meta\")\n", "\n", "X = tf.get_default_graph().get_tensor_by_name(\"X:0\")\n", "y = tf.get_default_graph().get_tensor_by_name(\"y:0\")\n", "\n", "hidden3 = tf.get_default_graph().get_tensor_by_name(\"dnn/hidden3/Relu:0\")\n", "\n", "new_hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name=\"new_hidden4\")\n", "new_logits = tf.layers.dense(new_hidden4, n_outputs, name=\"new_outputs\")\n", "\n", "with tf.name_scope(\"new_loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=new_logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"new_eval\"):\n", " correct = tf.nn.in_top_k(new_logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "with tf.name_scope(\"new_train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)\n", "\n", "init = tf.global_variables_initializer()\n", "new_saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "새로운 모델을 훈련시킵니다:" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9188\n", "1 검증 세트 정확도: 0.9396\n", "2 검증 세트 정확도: 0.9488\n", "3 검증 세트 정확도: 0.953\n", "4 검증 세트 정확도: 0.9554\n", "5 검증 세트 정확도: 0.9558\n", "6 검증 세트 정확도: 0.9572\n", "7 검증 세트 정확도: 0.9608\n", "8 검증 세트 정확도: 0.9612\n", "9 검증 세트 정확도: 0.964\n", "10 검증 세트 정확도: 0.9652\n", "11 검증 세트 정확도: 0.9658\n", "12 검증 세트 정확도: 0.9642\n", "13 검증 세트 정확도: 0.967\n", "14 검증 세트 정확도: 0.9688\n", "15 검증 세트 정확도: 0.9684\n", "16 검증 세트 정확도: 0.9698\n", "17 검증 세트 정확도: 0.9678\n", "18 검증 세트 정확도: 0.9694\n", "19 검증 세트 정확도: 0.9702\n" ] } ], "source": [ "with tf.Session() as sess:\n", " init.run()\n", " saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = new_saver.save(sess, \"./my_new_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "원본 모델을 만든 파이썬 코드에 접근할 수 있다면 필요한 부분만 재사용하고 나머지는 버릴 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300 # 재사용\n", "n_hidden2 = 50 # 재사용\n", "n_hidden3 = 50 # 재사용\n", "n_hidden4 = 20 # 새로 만듦!\n", "n_outputs = 10 # 새로 만듦!\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\") # 재사용\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\") # 재사용\n", " hidden3 = tf.layers.dense(hidden2, n_hidden3, activation=tf.nn.relu, name=\"hidden3\") # 재사용\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name=\"hidden4\") # 새로 만듦!\n", " logits = tf.layers.dense(hidden4, n_outputs, name=\"outputs\") # 새로 만듦!\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그러나 이전에 학습된 모델을 복원하기 위해 (복원할 변수 리스트를 전달합니다. 그렇지 않으면 그래프와 맞지 않는다고 에러를 낼 것입니다) `Saver` 객체를 하나 만들고 훈련이 끝난 후 새로운 모델을 저장하기 위해 또 다른 `Saver` 객체를 만들어야 합니다:" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9022\n", "1 검증 세트 정확도: 0.9336\n", "2 검증 세트 정확도: 0.943\n", "3 검증 세트 정확도: 0.947\n", "4 검증 세트 정확도: 0.9518\n", "5 검증 세트 정확도: 0.9532\n", "6 검증 세트 정확도: 0.9556\n", "7 검증 세트 정확도: 0.959\n", "8 검증 세트 정확도: 0.9586\n", "9 검증 세트 정확도: 0.961\n", "10 검증 세트 정확도: 0.9624\n", "11 검증 세트 정확도: 0.9622\n", "12 검증 세트 정확도: 0.9638\n", "13 검증 세트 정확도: 0.9662\n", "14 검증 세트 정확도: 0.9662\n", "15 검증 세트 정확도: 0.9664\n", "16 검증 세트 정확도: 0.967\n", "17 검증 세트 정확도: 0.9676\n", "18 검증 세트 정확도: 0.9684\n", "19 검증 세트 정확도: 0.9674\n" ] } ], "source": [ "reuse_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,\n", " scope=\"hidden[123]\") # 정규표현식\n", "restore_saver = tf.train.Saver(reuse_vars) # 1-3층 복원\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " restore_saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs): # 책에는 없음\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size): # 책에는 없음\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) # 책에는 없음\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid}) # 책에는 없음\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val) # 책에는 없음\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 다른 프레임워크의 모델 재사용하기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 예에서는 재사용하려는 각 변수에 대해 변수 초기화 할당 연산을 찾고, 초기화 될 값에 해당하는 두 번째 입력 핸들을 구합니다. 초기화가 실행될 때 여기에 `feed_dict` 매개변수를 사용하여 초깃값 대신 원하는 값을 주입합니다:" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 2\n", "n_hidden1 = 3" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 61. 83. 105.]]\n" ] } ], "source": [ "original_w = [[1., 2., 3.], [4., 5., 6.]] # 다른 프레임워크로부터 가중치를 로드\n", "original_b = [7., 8., 9.] # 다른 프레임워크로부터 편향을 로드\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", "# [...] 모델의 나머지 부분을 구성\n", "\n", "# hidden1 변수의 할당 노드에 대한 핸들을 구합니다\n", "graph = tf.get_default_graph()\n", "assign_kernel = graph.get_operation_by_name(\"hidden1/kernel/Assign\")\n", "assign_bias = graph.get_operation_by_name(\"hidden1/bias/Assign\")\n", "init_kernel = assign_kernel.inputs[1]\n", "init_bias = assign_bias.inputs[1]\n", "\n", "init = tf.global_variables_initializer()\n", "\n", "with tf.Session() as sess:\n", " sess.run(init, feed_dict={init_kernel: original_w, init_bias: original_b})\n", " # [...] 새 작업에 모델을 훈련시킵니다\n", " print(hidden1.eval(feed_dict={X: [[10.0, 11.0]]})) # 책에는 없음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "또 다른 방법은 전용 할당 노드와 플레이스홀더를 만든는 것입니다. 이 방법은 더 번거롭고 효율적이지 않지만 하려는 방식이 잘 드러나는 방법입니다:" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 61. 83. 105.]]\n" ] } ], "source": [ "reset_graph()\n", "\n", "n_inputs = 2\n", "n_hidden1 = 3\n", "\n", "original_w = [[1., 2., 3.], [4., 5., 6.]] # 다른 프레임워크로부터 가중치를 로드\n", "original_b = [7., 8., 9.] # 다른 프레임워크로부터 편향을 로드\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", "# [...] 모델의 나머지를 구성\n", "\n", "# hidden1 변수의 할당 노드에 대한 핸들을 구합니다\n", "with tf.variable_scope(\"\", default_name=\"\", reuse=True): # 루트 범위\n", " hidden1_weights = tf.get_variable(\"hidden1/kernel\")\n", " hidden1_biases = tf.get_variable(\"hidden1/bias\")\n", "\n", "# 전용 플레이스홀더와 할당 노드를 만듭니다\n", "original_weights = tf.placeholder(tf.float32, shape=(n_inputs, n_hidden1))\n", "original_biases = tf.placeholder(tf.float32, shape=n_hidden1)\n", "assign_hidden1_weights = tf.assign(hidden1_weights, original_weights)\n", "assign_hidden1_biases = tf.assign(hidden1_biases, original_biases)\n", "\n", "init = tf.global_variables_initializer()\n", "\n", "with tf.Session() as sess:\n", " sess.run(init)\n", " sess.run(assign_hidden1_weights, feed_dict={original_weights: original_w})\n", " sess.run(assign_hidden1_biases, feed_dict={original_biases: original_b})\n", " # [...] 새 작업에 모델을 훈련시킵니다\n", " print(hidden1.eval(feed_dict={X: [[10.0, 11.0]]}))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`get_collection()`에 `scope`를 지정하여 변수의 핸들을 가져올 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[,\n", " ]" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope=\"hidden1\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "또는 그래프의 `get_tensor_by_name()` 메서드를 사용할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 68, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.get_default_graph().get_tensor_by_name(\"hidden1/kernel:0\")" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tf.get_default_graph().get_tensor_by_name(\"hidden1/bias:0\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 하위층 동결하기" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300 # 재사용\n", "n_hidden2 = 50 # 재사용\n", "n_hidden3 = 50 # 재사용\n", "n_hidden4 = 20 # 새로 만듦!\n", "n_outputs = 10 # 새로 만듦!\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\") # 재사용\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\") # 재사용\n", " hidden3 = tf.layers.dense(hidden2, n_hidden3, activation=tf.nn.relu, name=\"hidden3\") # 재사용\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name=\"hidden4\") # 새로 만듦!\n", " logits = tf.layers.dense(hidden4, n_outputs, name=\"outputs\") # 새로 만듦!\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"train\"): # 책에는 없음\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate) # 책에는 없음\n", " train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES,\n", " scope=\"hidden[34]|outputs\")\n", " training_op = optimizer.minimize(loss, var_list=train_vars)" ] }, { "cell_type": "code", "execution_count": 72, "metadata": {}, "outputs": [], "source": [ "init = tf.global_variables_initializer()\n", "new_saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.8962\n", "1 검증 세트 정확도: 0.9292\n", "2 검증 세트 정확도: 0.94\n", "3 검증 세트 정확도: 0.9442\n", "4 검증 세트 정확도: 0.9482\n", "5 검증 세트 정확도: 0.9506\n", "6 검증 세트 정확도: 0.9506\n", "7 검증 세트 정확도: 0.9536\n", "8 검증 세트 정확도: 0.9556\n", "9 검증 세트 정확도: 0.9566\n", "10 검증 세트 정확도: 0.956\n", "11 검증 세트 정확도: 0.9564\n", "12 검증 세트 정확도: 0.9568\n", "13 검증 세트 정확도: 0.9576\n", "14 검증 세트 정확도: 0.9592\n", "15 검증 세트 정확도: 0.9574\n", "16 검증 세트 정확도: 0.9572\n", "17 검증 세트 정확도: 0.96\n", "18 검증 세트 정확도: 0.9586\n", "19 검증 세트 정확도: 0.9602\n" ] } ], "source": [ "reuse_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,\n", " scope=\"hidden[123]\") # 정규 표현식\n", "restore_saver = tf.train.Saver(reuse_vars) # 1-3층 복원\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " restore_saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\")" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300 # 재사용\n", "n_hidden2 = 50 # 재사용\n", "n_hidden3 = 50 # 재사용\n", "n_hidden4 = 20 # 새로 만듦!\n", "n_outputs = 10 # 새로 만듦!\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")" ] }, { "cell_type": "code", "execution_count": 75, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu,\n", " name=\"hidden1\") # 동결층 재사용\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu,\n", " name=\"hidden2\") # 동결층 재사용\n", " hidden2_stop = tf.stop_gradient(hidden2)\n", " hidden3 = tf.layers.dense(hidden2_stop, n_hidden3, activation=tf.nn.relu,\n", " name=\"hidden3\") # 동결하지 않고 재사용\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu,\n", " name=\"hidden4\") # 새로 만듦!\n", " logits = tf.layers.dense(hidden4, n_outputs, name=\"outputs\") # 새로 만듦!" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "훈련하는 코드는 이전과 완전히 동일합니다:" ] }, { "cell_type": "code", "execution_count": 77, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9022\n", "1 검증 세트 정확도: 0.931\n", "2 검증 세트 정확도: 0.9434\n", "3 검증 세트 정확도: 0.9474\n", "4 검증 세트 정확도: 0.9514\n", "5 검증 세트 정확도: 0.9524\n", "6 검증 세트 정확도: 0.9522\n", "7 검증 세트 정확도: 0.9558\n", "8 검증 세트 정확도: 0.9556\n", "9 검증 세트 정확도: 0.9562\n", "10 검증 세트 정확도: 0.957\n", "11 검증 세트 정확도: 0.955\n", "12 검증 세트 정확도: 0.9572\n", "13 검증 세트 정확도: 0.958\n", "14 검증 세트 정확도: 0.9578\n", "15 검증 세트 정확도: 0.9572\n", "16 검증 세트 정확도: 0.9564\n", "17 검증 세트 정확도: 0.9576\n", "18 검증 세트 정확도: 0.9592\n", "19 검증 세트 정확도: 0.9582\n" ] } ], "source": [ "reuse_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,\n", " scope=\"hidden[123]\") # 정규 표현식\n", "restore_saver = tf.train.Saver(reuse_vars) # 1-3층 복원\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " restore_saver.restore(sess, \"./my_model_final.ckpt\")\n", "\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 동결층 캐싱하기" ] }, { "cell_type": "code", "execution_count": 78, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300 # 재사용\n", "n_hidden2 = 50 # 재사용\n", "n_hidden3 = 50 # 재사용\n", "n_hidden4 = 20 # 새로 만듦!\n", "n_outputs = 10 # 새로 만듦!\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu,\n", " name=\"hidden1\") # 동결층 재사용\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu,\n", " name=\"hidden2\") # 동결층 재사용 & 캐싱\n", " hidden2_stop = tf.stop_gradient(hidden2)\n", " hidden3 = tf.layers.dense(hidden2_stop, n_hidden3, activation=tf.nn.relu,\n", " name=\"hidden3\") # 동결하지 않고 재사용\n", " hidden4 = tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu,\n", " name=\"hidden4\") # 새로 만듦!\n", " logits = tf.layers.dense(hidden4, n_outputs, name=\"outputs\") # 새로 만듦!\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)" ] }, { "cell_type": "code", "execution_count": 79, "metadata": {}, "outputs": [], "source": [ "reuse_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,\n", " scope=\"hidden[123]\") # 정규 표현식\n", "restore_saver = tf.train.Saver(reuse_vars) # 1-3층 복원\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 80, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from ./my_model_final.ckpt\n", "0 검증 세트 정확도: 0.9022\n", "1 검증 세트 정확도: 0.931\n", "2 검증 세트 정확도: 0.9434\n", "3 검증 세트 정확도: 0.9474\n", "4 검증 세트 정확도: 0.9514\n", "5 검증 세트 정확도: 0.9524\n", "6 검증 세트 정확도: 0.9522\n", "7 검증 세트 정확도: 0.9558\n", "8 검증 세트 정확도: 0.9556\n", "9 검증 세트 정확도: 0.9562\n", "10 검증 세트 정확도: 0.957\n", "11 검증 세트 정확도: 0.955\n", "12 검증 세트 정확도: 0.9572\n", "13 검증 세트 정확도: 0.958\n", "14 검증 세트 정확도: 0.9578\n", "15 검증 세트 정확도: 0.9572\n", "16 검증 세트 정확도: 0.9564\n", "17 검증 세트 정확도: 0.9576\n", "18 검증 세트 정확도: 0.9592\n", "19 검증 세트 정확도: 0.9582\n" ] } ], "source": [ "import numpy as np\n", "\n", "n_batches = len(X_train) // batch_size\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " restore_saver.restore(sess, \"./my_model_final.ckpt\")\n", " \n", " h2_cache = sess.run(hidden2, feed_dict={X: X_train})\n", " h2_cache_valid = sess.run(hidden2, feed_dict={X: X_valid}) # 책에는 없음\n", "\n", " for epoch in range(n_epochs):\n", " shuffled_idx = np.random.permutation(len(X_train))\n", " hidden2_batches = np.array_split(h2_cache[shuffled_idx], n_batches)\n", " y_batches = np.array_split(y_train[shuffled_idx], n_batches)\n", " for hidden2_batch, y_batch in zip(hidden2_batches, y_batches):\n", " sess.run(training_op, feed_dict={hidden2:hidden2_batch, y:y_batch})\n", "\n", " accuracy_val = accuracy.eval(feed_dict={hidden2: h2_cache_valid, # 책에는 없음\n", " y: y_valid}) # 책에는 없음\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val) # 책에는 없음\n", "\n", " save_path = saver.save(sess, \"./my_new_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 고속 옵티마이저" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 모멘텀 옵티마이저" ] }, { "cell_type": "code", "execution_count": 81, "metadata": {}, "outputs": [], "source": [ "optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate,\n", " momentum=0.9)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 네스테로프 가속 경사" ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [], "source": [ "optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate,\n", " momentum=0.9, use_nesterov=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## AdaGrad" ] }, { "cell_type": "code", "execution_count": 83, "metadata": {}, "outputs": [], "source": [ "optimizer = tf.train.AdagradOptimizer(learning_rate=learning_rate)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## RMSProp" ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [], "source": [ "optimizer = tf.train.RMSPropOptimizer(learning_rate=learning_rate,\n", " momentum=0.9, decay=0.9, epsilon=1e-10)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Adam 최적화" ] }, { "cell_type": "code", "execution_count": 85, "metadata": {}, "outputs": [], "source": [ "optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 학습률 스케줄링" ] }, { "cell_type": "code", "execution_count": 86, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\")\n", " logits = tf.layers.dense(hidden2, n_outputs, name=\"outputs\")\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")" ] }, { "cell_type": "code", "execution_count": 87, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"train\"): # 책에는 없음\n", " initial_learning_rate = 0.1\n", " decay_steps = 10000\n", " decay_rate = 1/10\n", " global_step = tf.Variable(0, trainable=False, name=\"global_step\")\n", " learning_rate = tf.train.exponential_decay(initial_learning_rate, global_step,\n", " decay_steps, decay_rate)\n", " optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)\n", " training_op = optimizer.minimize(loss, global_step=global_step)" ] }, { "cell_type": "code", "execution_count": 88, "metadata": {}, "outputs": [], "source": [ "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 89, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.9678\n", "1 검증 세트 정확도: 0.9716\n", "2 검증 세트 정확도: 0.9716\n", "3 검증 세트 정확도: 0.979\n", "4 검증 세트 정확도: 0.9826\n" ] } ], "source": [ "n_epochs = 5\n", "batch_size = 50\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 규제로 과대적합 피하기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## $\\ell_1$과 $\\ell_2$ 규제" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$\\ell_1$ 규제를 직접 구현해 보죠. 먼저 평상시처럼 모델을 만듭니다(간단하게 하기 위해 은닉층을 하나만 두겠습니다):" ] }, { "cell_type": "code", "execution_count": 90, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", " logits = tf.layers.dense(hidden1, n_outputs, name=\"outputs\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그다음, 층의 가중치에 대한 핸들을 얻어 크로스 엔트로피 손실에 $\\ell_1$ 손실(즉, 가중치의 절댓값)을 더해 전체 손실을 계산합니다:" ] }, { "cell_type": "code", "execution_count": 91, "metadata": {}, "outputs": [], "source": [ "W1 = tf.get_default_graph().get_tensor_by_name(\"hidden1/kernel:0\")\n", "W2 = tf.get_default_graph().get_tensor_by_name(\"outputs/kernel:0\")\n", "\n", "scale = 0.001 # l1 규제 하이퍼파라미터\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y,\n", " logits=logits)\n", " base_loss = tf.reduce_mean(xentropy, name=\"avg_xentropy\")\n", " reg_losses = tf.reduce_sum(tf.abs(W1)) + tf.reduce_sum(tf.abs(W2))\n", " loss = tf.add(base_loss, scale * reg_losses, name=\"loss\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "나머지는 이전과 동일합니다:" ] }, { "cell_type": "code", "execution_count": 92, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "learning_rate = 0.01\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 93, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.831\n", "1 검증 세트 정확도: 0.871\n", "2 검증 세트 정확도: 0.8838\n", "3 검증 세트 정확도: 0.8934\n", "4 검증 세트 정확도: 0.8966\n", "5 검증 세트 정확도: 0.8988\n", "6 검증 세트 정확도: 0.9016\n", "7 검증 세트 정확도: 0.9044\n", "8 검증 세트 정확도: 0.9058\n", "9 검증 세트 정확도: 0.906\n", "10 검증 세트 정확도: 0.9068\n", "11 검증 세트 정확도: 0.9054\n", "12 검증 세트 정확도: 0.907\n", "13 검증 세트 정확도: 0.9084\n", "14 검증 세트 정확도: 0.9088\n", "15 검증 세트 정확도: 0.9064\n", "16 검증 세트 정확도: 0.9066\n", "17 검증 세트 정확도: 0.9066\n", "18 검증 세트 정확도: 0.9066\n", "19 검증 세트 정확도: 0.9052\n" ] } ], "source": [ "n_epochs = 20\n", "batch_size = 200\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다른 방법으로는 `tf.layers.dense()` 함수에 규제 함수를 전달할 수 있습니다. 이 함수는 규제 손실을 계산하기 위한 연산을 만들고 규제 손실 컬렉션에 이 연산을 추가합니다. 모델 선언부는 이전과 동일합니다:" ] }, { "cell_type": "code", "execution_count": 94, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28 # MNIST\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_outputs = 10\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그다음, 동일한 매개변수를 매번 반복하지 않으려고 파이썬의 `partial()` 함수를 사용합니다. `kernel_regularizer` 매개변수를 지정해야 합니다:" ] }, { "cell_type": "code", "execution_count": 95, "metadata": {}, "outputs": [], "source": [ "scale = 0.001" ] }, { "cell_type": "code", "execution_count": 96, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "WARNING: The TensorFlow contrib module will not be included in TensorFlow 2.0.\n", "For more information, please see:\n", " * https://github.com/tensorflow/community/blob/master/rfcs/20180907-contrib-sunset.md\n", " * https://github.com/tensorflow/addons\n", "If you depend on functionality not listed there, please file an issue.\n", "\n" ] } ], "source": [ "my_dense_layer = partial(\n", " tf.layers.dense, activation=tf.nn.relu,\n", " kernel_regularizer=tf.contrib.layers.l1_regularizer(scale))\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = my_dense_layer(X, n_hidden1, name=\"hidden1\")\n", " hidden2 = my_dense_layer(hidden1, n_hidden2, name=\"hidden2\")\n", " logits = my_dense_layer(hidden2, n_outputs, activation=None,\n", " name=\"outputs\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본 손실에 규제 손실을 추가합니다:" ] }, { "cell_type": "code", "execution_count": 97, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"loss\"): # 책에는 없음\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits( # 책에는 없음\n", " labels=y, logits=logits) # 책에는 없음\n", " base_loss = tf.reduce_mean(xentropy, name=\"avg_xentropy\") # 책에는 없음\n", " reg_losses = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)\n", " loss = tf.add_n([base_loss] + reg_losses, name=\"loss\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "나머지는 평상시와 동일합니다:" ] }, { "cell_type": "code", "execution_count": 98, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32), name=\"accuracy\")\n", "\n", "learning_rate = 0.01\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.GradientDescentOptimizer(learning_rate)\n", " training_op = optimizer.minimize(loss)\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 99, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.8274\n", "1 검증 세트 정확도: 0.8766\n", "2 검증 세트 정확도: 0.8952\n", "3 검증 세트 정확도: 0.9016\n", "4 검증 세트 정확도: 0.9082\n", "5 검증 세트 정확도: 0.9096\n", "6 검증 세트 정확도: 0.9126\n", "7 검증 세트 정확도: 0.9154\n", "8 검증 세트 정확도: 0.918\n", "9 검증 세트 정확도: 0.919\n", "10 검증 세트 정확도: 0.92\n", "11 검증 세트 정확도: 0.9224\n", "12 검증 세트 정확도: 0.9212\n", "13 검증 세트 정확도: 0.9228\n", "14 검증 세트 정확도: 0.9222\n", "15 검증 세트 정확도: 0.9218\n", "16 검증 세트 정확도: 0.9218\n", "17 검증 세트 정확도: 0.9228\n", "18 검증 세트 정확도: 0.9216\n", "19 검증 세트 정확도: 0.9214\n" ] } ], "source": [ "n_epochs = 20\n", "batch_size = 200\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 드롭아웃" ] }, { "cell_type": "code", "execution_count": 100, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")" ] }, { "cell_type": "code", "execution_count": 101, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "WARNING:tensorflow:From :4: dropout (from tensorflow.python.layers.core) is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Use keras.layers.dropout instead.\n", "WARNING:tensorflow:From /home/haesun/anaconda3/envs/handson-ml/lib/python3.6/site-packages/tensorflow/python/keras/layers/core.py:143: calling dropout (from tensorflow.python.ops.nn_ops) with keep_prob is deprecated and will be removed in a future version.\n", "Instructions for updating:\n", "Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.\n" ] } ], "source": [ "training = tf.placeholder_with_default(False, shape=(), name='training')\n", "\n", "dropout_rate = 0.5 # == 1 - keep_prob\n", "X_drop = tf.layers.dropout(X, dropout_rate, training=training)\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X_drop, n_hidden1, activation=tf.nn.relu,\n", " name=\"hidden1\")\n", " hidden1_drop = tf.layers.dropout(hidden1, dropout_rate, training=training)\n", " hidden2 = tf.layers.dense(hidden1_drop, n_hidden2, activation=tf.nn.relu,\n", " name=\"hidden2\")\n", " hidden2_drop = tf.layers.dropout(hidden2, dropout_rate, training=training)\n", " logits = tf.layers.dense(hidden2_drop, n_outputs, name=\"outputs\")" ] }, { "cell_type": "code", "execution_count": 102, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9)\n", " training_op = optimizer.minimize(loss) \n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))\n", " \n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "code", "execution_count": 103, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.9264\n", "1 검증 세트 정확도: 0.9464\n", "2 검증 세트 정확도: 0.9518\n", "3 검증 세트 정확도: 0.9554\n", "4 검증 세트 정확도: 0.9592\n", "5 검증 세트 정확도: 0.963\n", "6 검증 세트 정확도: 0.9618\n", "7 검증 세트 정확도: 0.9658\n", "8 검증 세트 정확도: 0.9698\n", "9 검증 세트 정확도: 0.9698\n", "10 검증 세트 정확도: 0.9706\n", "11 검증 세트 정확도: 0.9712\n", "12 검증 세트 정확도: 0.969\n", "13 검증 세트 정확도: 0.9718\n", "14 검증 세트 정확도: 0.974\n", "15 검증 세트 정확도: 0.9692\n", "16 검증 세트 정확도: 0.9716\n", "17 검증 세트 정확도: 0.973\n", "18 검증 세트 정확도: 0.9738\n", "19 검증 세트 정확도: 0.9738\n" ] } ], "source": [ "n_epochs = 20\n", "batch_size = 50\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={training: True, X: X_batch, y: y_batch})\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid})\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val)\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 맥스 노름" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "2개의 은닉층을 가진 간단한 MNIST 신경망을 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 104, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_outputs = 10\n", "\n", "learning_rate = 0.01\n", "momentum = 0.9\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name=\"hidden2\")\n", " logits = tf.layers.dense(hidden2, n_outputs, name=\"outputs\")\n", "\n", "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.MomentumOptimizer(learning_rate, momentum)\n", " training_op = optimizer.minimize(loss) \n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다음으로 첫 번째 은닉층의 가중치에 대한 핸들을 얻고 `clip_by_norm()` 함수를 사용해 가중치를 클리핑하는 연산을 만듭니다. 그런 다음 클리핑된 가중치를 가중치 변수에 할당하는 연산을 만듭니다:" ] }, { "cell_type": "code", "execution_count": 105, "metadata": {}, "outputs": [], "source": [ "threshold = 1.0\n", "weights = tf.get_default_graph().get_tensor_by_name(\"hidden1/kernel:0\")\n", "clipped_weights = tf.clip_by_norm(weights, clip_norm=threshold, axes=1)\n", "clip_weights = tf.assign(weights, clipped_weights)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "두 번째 층에 대해서도 동일하게 할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 106, "metadata": {}, "outputs": [], "source": [ "weights2 = tf.get_default_graph().get_tensor_by_name(\"hidden2/kernel:0\")\n", "clipped_weights2 = tf.clip_by_norm(weights2, clip_norm=threshold, axes=1)\n", "clip_weights2 = tf.assign(weights2, clipped_weights2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "초기와 연산과 `Saver` 객체를 만듭니다:" ] }, { "cell_type": "code", "execution_count": 107, "metadata": {}, "outputs": [], "source": [ "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 모델을 훈련시킵니다. 이전과 매우 동일한데 `training_op`을 실행한 후에 `clip_weights`와 `clip_weights2` 연산을 실행하는 것만 다릅니다:" ] }, { "cell_type": "code", "execution_count": 108, "metadata": {}, "outputs": [], "source": [ "n_epochs = 20\n", "batch_size = 50" ] }, { "cell_type": "code", "execution_count": 109, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.9574\n", "1 검증 세트 정확도: 0.97\n", "2 검증 세트 정확도: 0.9702\n", "3 검증 세트 정확도: 0.9768\n", "4 검증 세트 정확도: 0.9776\n", "5 검증 세트 정확도: 0.9784\n", "6 검증 세트 정확도: 0.9814\n", "7 검증 세트 정확도: 0.9814\n", "8 검증 세트 정확도: 0.9816\n", "9 검증 세트 정확도: 0.9828\n", "10 검증 세트 정확도: 0.9832\n", "11 검증 세트 정확도: 0.985\n", "12 검증 세트 정확도: 0.9824\n", "13 검증 세트 정확도: 0.984\n", "14 검증 세트 정확도: 0.9846\n", "15 검증 세트 정확도: 0.9848\n", "16 검증 세트 정확도: 0.9848\n", "17 검증 세트 정확도: 0.9844\n", "18 검증 세트 정확도: 0.9854\n", "19 검증 세트 정확도: 0.9848\n" ] } ], "source": [ "with tf.Session() as sess: # 책에는 없음\n", " init.run() # 책에는 없음\n", " for epoch in range(n_epochs): # 책에는 없음\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size): # 책에는 없음\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " clip_weights.eval()\n", " clip_weights2.eval() # 책에는 없음\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid}) # 책에는 없음\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val) # 책에는 없음\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\") # 책에는 없음" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "위 구현은 이해하기 쉽고 잘 작동하지만 조금 번거롭습니다. 더 나은 방법은 `max_norm_regularizer()` 함수를 만드는 것입니다:" ] }, { "cell_type": "code", "execution_count": 110, "metadata": {}, "outputs": [], "source": [ "def max_norm_regularizer(threshold, axes=1, name=\"max_norm\",\n", " collection=\"max_norm\"):\n", " def max_norm(weights):\n", " clipped = tf.clip_by_norm(weights, clip_norm=threshold, axes=axes)\n", " clip_weights = tf.assign(weights, clipped, name=name)\n", " tf.add_to_collection(collection, clip_weights)\n", " return None # 규제 손실을 위한 항이 없습니다\n", " return max_norm" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그런 다음 (필요한 임계값을 지정해서) 맥스 노름 규제 매개변수에 넘길 함수를 만들기 위해 이 함수를 호출합니다. 은닉층을 만들 때 이 규제 함수를 `kernel_regularizer` 매개변수를 통해 전달할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 111, "metadata": {}, "outputs": [], "source": [ "reset_graph()\n", "\n", "n_inputs = 28 * 28\n", "n_hidden1 = 300\n", "n_hidden2 = 50\n", "n_outputs = 10\n", "\n", "learning_rate = 0.01\n", "momentum = 0.9\n", "\n", "X = tf.placeholder(tf.float32, shape=(None, n_inputs), name=\"X\")\n", "y = tf.placeholder(tf.int32, shape=(None), name=\"y\")" ] }, { "cell_type": "code", "execution_count": 112, "metadata": {}, "outputs": [], "source": [ "max_norm_reg = max_norm_regularizer(threshold=1.0)\n", "\n", "with tf.name_scope(\"dnn\"):\n", " hidden1 = tf.layers.dense(X, n_hidden1, activation=tf.nn.relu,\n", " kernel_regularizer=max_norm_reg, name=\"hidden1\")\n", " hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu,\n", " kernel_regularizer=max_norm_reg, name=\"hidden2\")\n", " logits = tf.layers.dense(hidden2, n_outputs, name=\"outputs\")" ] }, { "cell_type": "code", "execution_count": 113, "metadata": {}, "outputs": [], "source": [ "with tf.name_scope(\"loss\"):\n", " xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)\n", " loss = tf.reduce_mean(xentropy, name=\"loss\")\n", "\n", "with tf.name_scope(\"train\"):\n", " optimizer = tf.train.MomentumOptimizer(learning_rate, momentum)\n", " training_op = optimizer.minimize(loss) \n", "\n", "with tf.name_scope(\"eval\"):\n", " correct = tf.nn.in_top_k(logits, y, 1)\n", " accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))\n", "\n", "init = tf.global_variables_initializer()\n", "saver = tf.train.Saver()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "훈련 연산이 실행된 후에 가중치 클리핑 연산을 실행하는 것을 제외하면 이전과 동일합니다:" ] }, { "cell_type": "code", "execution_count": 114, "metadata": {}, "outputs": [], "source": [ "n_epochs = 20\n", "batch_size = 50" ] }, { "cell_type": "code", "execution_count": 115, "metadata": { "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 검증 세트 정확도: 0.9558\n", "1 검증 세트 정확도: 0.9704\n", "2 검증 세트 정확도: 0.9728\n", "3 검증 세트 정확도: 0.9756\n", "4 검증 세트 정확도: 0.9772\n", "5 검증 세트 정확도: 0.9788\n", "6 검증 세트 정확도: 0.9804\n", "7 검증 세트 정확도: 0.9814\n", "8 검증 세트 정확도: 0.981\n", "9 검증 세트 정확도: 0.9814\n", "10 검증 세트 정확도: 0.9818\n", "11 검증 세트 정확도: 0.9814\n", "12 검증 세트 정확도: 0.9804\n", "13 검증 세트 정확도: 0.982\n", "14 검증 세트 정확도: 0.9824\n", "15 검증 세트 정확도: 0.9822\n", "16 검증 세트 정확도: 0.9822\n", "17 검증 세트 정확도: 0.9826\n", "18 검증 세트 정확도: 0.9828\n", "19 검증 세트 정확도: 0.983\n" ] } ], "source": [ "clip_all_weights = tf.get_collection(\"max_norm\")\n", "\n", "with tf.Session() as sess:\n", " init.run()\n", " for epoch in range(n_epochs):\n", " for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):\n", " sess.run(training_op, feed_dict={X: X_batch, y: y_batch})\n", " sess.run(clip_all_weights)\n", " accuracy_val = accuracy.eval(feed_dict={X: X_valid, y: y_valid}) # 책에는 없음\n", " print(epoch, \"검증 세트 정확도:\", accuracy_val) # 책에는 없음\n", "\n", " save_path = saver.save(sess, \"./my_model_final.ckpt\") # 책에는 없음" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "# 연습문제 해답" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "11장의 연습문제는 [11_deep_learning_exercise](11_deep_learning_exercises.ipynb) 노트북에 있습니다." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.8" }, "nav_menu": { "height": "360px", "width": "416px" }, "toc": { "navigate_menu": true, "number_sections": true, "sideBar": true, "threshold": 6, "toc_cell": false, "toc_section_display": "block", "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 1 }