{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Using TensorFlow backend.\n" ] }, { "data": { "text/plain": [ "'2.2.4'" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import keras\n", "keras.__version__" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 적대적 생성 신경망 소개\n", "\n", "이 노트북은 [케라스 창시자에게 배우는 딥러닝](https://tensorflow.blog/deep-learning-with-python/) 책의 8장 5절의 코드 예제입니다. 책에는 더 많은 내용과 그림이 있습니다. 이 노트북에는 소스 코드에 관련된 설명만 포함합니다. 이 노트북의 설명은 케라스 버전 2.2.2에 맞추어져 있습니다. 케라스 최신 버전이 릴리스되면 노트북을 다시 테스트하기 때문에 설명과 코드의 결과가 조금 다를 수 있습니다.\n", "\n", "---\n", "[...]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## GAN 구현 방법\n", "\n", "이 절에서는 케라스에서 가장 기본적인 형태의 GAN을 구현하는 방법을 설명하겠습니다. GAN은 수준 높은 기술이기 때문에 기술적인 내용을 깊이 설명하는 것은 이 책의 범위를 벗어납니다. 구체적인 구현은 심층 합성곱 GAN(DCGAN)입니다. 생성자와 판별자가 심층 컨브넷입니다. 특히 생성자에서 이미지 업샘플링을 위해 `Conv2DTranspose` 층을 사용합니다.\n", "\n", "CIFAR10 데이터셋의 이미지로 GAN을 훈련하겠습니다. 이 데이터셋은 32 × 32 크기의 RGB 이미지 50,000개로 이루어져 있고 10개의 클래스를 가집니다(클래스마다 5,000개의 이미지가 있습니다). 문제를 간단하게 만들기 위해 “frog” 클래스의 이미지만 사용하겠습니다.\n", "\n", "GAN 구조는 다음과 같습니다:\n", "\n", "1.\t`generator` 네트워크는 `(latent_dim,)` 크기의 벡터를 `(32, 32, 3)` 크기의 이미지로 매핑합니다.\n", "2.\t`discriminator` 네트워크는 (32, 32, 3) 크기의 이미지가 진짜일 확률을 추정하여 이진 값으로 매핑합니다.\n", "3.\t생성자와 판별자를 연결하는 `gan` 네트워크를 만듭니다. `gan(x) = discriminator(generator(x))` 입니다. 이 `gan` 네트워크는 잠재 공간의 벡터를 판별자의 평가로 매핑합니다. 판별자는 생성자가 잠재 공간의 벡터를 디코딩한 것이 얼마나 현실적인지를 평가합니다.\n", "4.\t“진짜\"/”가짜\" 레이블과 함께 진짜 이미지와 가짜 이미지 샘플을 사용해 판별자를 훈련합니다. 일반적인 이미지 분류 모델을 훈련하는 것과 동일합니다.\n", "5. 생성자를 훈련하려면 `gan` 모델의 손실에 대한 생성자 가중치의 그래디언트를 사용합니다. 이 말은 매 단계마다 생성자에 의해 디코딩된 이미지를 판별자가 “진짜\"로 분류하도록 만드는 방향으로 생성자의 가중치를 이동한다는 뜻입니다. 다른 말로하면 판별자를 속이도록 생성자를 훈련합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 훈련 방법\n", "\n", "GAN을 훈련하고 튜닝하는 과정은 어렵기로 유명합니다. 알아두어야 할 몇 가지 유용한 기법이 있습니다. 딥러닝의 대부분이 그렇듯이 이는 과학보다는 연금술에 가깝습니다. 이런 기법들은 이론에 바탕을 둔 지침이 아니고 경험을 통해 발견된 것입니다. 실제 일어난 현상을 직관적으로 이해하는 수준에서 검증되었습니다. 모든 문제에 반드시 적용해야 것은 아니지만 경험상 잘 작동한다고 알려져 있습니다.\n", "\n", "다음은 이 절에서 GAN 생성자와 판별자를 구현하는 데 사용할 몇 가지 기법입니다. 이 목록이 GAN에 관련된 전체 팁이 아닙니다. GAN 논문들에서 더 많은 방법을 볼 수 있습니다.\n", "\n", "* 생성자의 마지막 활성화로 다른 종류의 모델에서 널리 사용하는 `sigmoid` 대신 `tanh` 함수를 사용합니다. \n", "* 균등 분포가 아니고 정규 분포(가우시안 분포)를 사용하여 잠재 공간에서 포인트를 샘플링합니다.\n", "* 무작위성은 모델을 견고하게 만듭니다. GAN 훈련은 동적 평형을 만들기 때문에 여러 방식으로 갇힐 가능성이 높습니다. 훈련하는 동안 무작위성을 주입하면 이를 방지하는 데 도움이 됩니다. 무작위성은 두 가지 방법으로 주입합니다. 판별자에 드롭아웃을 사용하거나 판별자를 위해 레이블에 랜덤 노이즈를 추가합니다.\n", "* 희소한 그래디언트는 GAN 훈련을 방해할 수 있습니다. 딥러닝에서 희소는 종종 바람직한 현상이지만 GAN에서는 그렇지 않습니다. 그래디언트를 희소하게 만들 수 있는 것은 최대 풀링 연산과 ReLU 활성화 두 가지입니다. 최대 풀링 대신 스트라이드 합성곱을 사용해 다운샘플링을 하는 것이 좋습니다. 또 ReLU 활성화 대신 `LeakyReLU` 층을 사용하세요. ReLU와 비슷하지만 음수의 활성화 값을 조금 허용하기 때문에 희소가 조금 완화됩니다.\n", "* 생성자에서 픽셀 공간을 균일하게 다루지 못해 생성된 이미지에서 체스판 모양이 종종 나타납니다(그림 8-17 참조). 이를 해결하기 위해 생성자와 판별자에서 스트라이드 `Conv2DTranpose`나 `Conv2D`를 사용할 때 스트라이드 크기로 나누어질 수 있는 커널 크기를 사용합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 생성자\n", "\n", "먼저 벡터(훈련하는 동안 잠재 공간에서 무작위로 샘플링됩니다)를 후보 이미지로 변환하는 `generator` 모델을 만들어 보죠. GAN에서 발생하는 많은 문제 중 하나는 생성자가 노이즈 같은 이미지를 생성하는 데서 멈추는 것입니다. 판별자와 생성자 양쪽에 모두 드롭아웃을 사용하는 것이 해결 방법이 될 수 있습니다." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "input_1 (InputLayer) (None, 32) 0 \n", "_________________________________________________________________\n", "dense_1 (Dense) (None, 32768) 1081344 \n", "_________________________________________________________________\n", "leaky_re_lu_1 (LeakyReLU) (None, 32768) 0 \n", "_________________________________________________________________\n", "reshape_1 (Reshape) (None, 16, 16, 128) 0 \n", "_________________________________________________________________\n", "conv2d_1 (Conv2D) (None, 16, 16, 256) 819456 \n", "_________________________________________________________________\n", "leaky_re_lu_2 (LeakyReLU) (None, 16, 16, 256) 0 \n", "_________________________________________________________________\n", "conv2d_transpose_1 (Conv2DTr (None, 32, 32, 256) 1048832 \n", "_________________________________________________________________\n", "leaky_re_lu_3 (LeakyReLU) (None, 32, 32, 256) 0 \n", "_________________________________________________________________\n", "conv2d_2 (Conv2D) (None, 32, 32, 256) 1638656 \n", "_________________________________________________________________\n", "leaky_re_lu_4 (LeakyReLU) (None, 32, 32, 256) 0 \n", "_________________________________________________________________\n", "conv2d_3 (Conv2D) (None, 32, 32, 256) 1638656 \n", "_________________________________________________________________\n", "leaky_re_lu_5 (LeakyReLU) (None, 32, 32, 256) 0 \n", "_________________________________________________________________\n", "conv2d_4 (Conv2D) (None, 32, 32, 3) 37635 \n", "=================================================================\n", "Total params: 6,264,579\n", "Trainable params: 6,264,579\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "import keras\n", "from keras import layers\n", "import numpy as np\n", "\n", "latent_dim = 32\n", "height = 32\n", "width = 32\n", "channels = 3\n", "\n", "generator_input = keras.Input(shape=(latent_dim,))\n", "\n", "# 입력을 16 × 16 크기의 128개 채널을 가진 특성 맵으로 변환합니다\n", "x = layers.Dense(128 * 16 * 16)(generator_input)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Reshape((16, 16, 128))(x)\n", "\n", "# 합성곱 층을 추가합니다\n", "x = layers.Conv2D(256, 5, padding='same')(x)\n", "x = layers.LeakyReLU()(x)\n", "\n", "# 32 × 32 크기로 업샘플링합니다\n", "x = layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)\n", "x = layers.LeakyReLU()(x)\n", "\n", "# 합성곱 층을 더 추가합니다\n", "x = layers.Conv2D(256, 5, padding='same')(x)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Conv2D(256, 5, padding='same')(x)\n", "x = layers.LeakyReLU()(x)\n", "\n", "# 32 × 32 크기의 1개 채널을 가진 특성 맵을 생성합니다\n", "x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x)\n", "generator = keras.models.Model(generator_input, x)\n", "generator.summary()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 판별자\n", "\n", "다음은 후보 이미지(진짜 혹은 가짜)를 입력으로 받고 두 개의 클래스로 분류하는 `discriminator` 모델을 만들겠습니다. 이 클래스는 '생성된 이미지' 또는 '훈련 세트에서 온 진짜 이미지'입니다." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "_________________________________________________________________\n", "Layer (type) Output Shape Param # \n", "=================================================================\n", "input_2 (InputLayer) (None, 32, 32, 3) 0 \n", "_________________________________________________________________\n", "conv2d_5 (Conv2D) (None, 30, 30, 128) 3584 \n", "_________________________________________________________________\n", "leaky_re_lu_6 (LeakyReLU) (None, 30, 30, 128) 0 \n", "_________________________________________________________________\n", "conv2d_6 (Conv2D) (None, 14, 14, 128) 262272 \n", "_________________________________________________________________\n", "leaky_re_lu_7 (LeakyReLU) (None, 14, 14, 128) 0 \n", "_________________________________________________________________\n", "conv2d_7 (Conv2D) (None, 6, 6, 128) 262272 \n", "_________________________________________________________________\n", "leaky_re_lu_8 (LeakyReLU) (None, 6, 6, 128) 0 \n", "_________________________________________________________________\n", "conv2d_8 (Conv2D) (None, 2, 2, 128) 262272 \n", "_________________________________________________________________\n", "leaky_re_lu_9 (LeakyReLU) (None, 2, 2, 128) 0 \n", "_________________________________________________________________\n", "flatten_1 (Flatten) (None, 512) 0 \n", "_________________________________________________________________\n", "dropout_1 (Dropout) (None, 512) 0 \n", "_________________________________________________________________\n", "dense_2 (Dense) (None, 1) 513 \n", "=================================================================\n", "Total params: 790,913\n", "Trainable params: 790,913\n", "Non-trainable params: 0\n", "_________________________________________________________________\n" ] } ], "source": [ "discriminator_input = layers.Input(shape=(height, width, channels))\n", "x = layers.Conv2D(128, 3)(discriminator_input)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Conv2D(128, 4, strides=2)(x)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Conv2D(128, 4, strides=2)(x)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Conv2D(128, 4, strides=2)(x)\n", "x = layers.LeakyReLU()(x)\n", "x = layers.Flatten()(x)\n", "\n", "# 드롭아웃 층을 넣는 것이 아주 중요합니다!\n", "x = layers.Dropout(0.4)(x)\n", "\n", "# 분류 층\n", "x = layers.Dense(1, activation='sigmoid')(x)\n", "\n", "discriminator = keras.models.Model(discriminator_input, x)\n", "discriminator.summary()\n", "\n", "# 옵티마이저에서 (값을 지정하여) 그래디언트 클리핑을 사용합니다\n", "# 안정된 훈련을 위해서 학습률 감쇠를 사용합니다\n", "discriminator_optimizer = keras.optimizers.RMSprop(lr=0.0008, clipvalue=1.0, decay=1e-8)\n", "discriminator.compile(optimizer=discriminator_optimizer, loss='binary_crossentropy')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 적대적 네트워크\n", "\n", "마지막으로 생성자와 판별자를 연결하여 GAN을 설정합니다. 훈련할 때 생성자가 판별자를 속이는 능력이 커지도록 학습합니다. 이 모델은 잠재 공간의 포인트를 “진짜\" 또는 “가짜\"의 분류 결정으로 변환합니다. 훈련에 사용되는 타깃 레이블은 항상 '진짜 이미지'입니다. `gan`을 훈련하는 것은 `discriminator`가 가짜 이미지를 보았을 때 진짜라고 예측하도록 만들기 위해 `generator`의 가중치를 업데이트하는 것입니다. 훈련하는 동안 판별자를 동결(학습되지 않도록)하는 것이 아주 중요합니다. `gan`을 훈련할 때 가중치가 업데이트되지 않습니다. 판별자의 가중치가 훈련하는 동안 업데이트되면 판별자는 항상 “진짜\"를 예측하도록 훈련됩니다. 이것이 우리가 원하는 바는 아니죠!" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "# 판별자의 가중치가 훈련되지 않도록 설정합니다(gan 모델에만 적용됩니다)\n", "discriminator.trainable = False\n", "\n", "gan_input = keras.Input(shape=(latent_dim,))\n", "gan_output = discriminator(generator(gan_input))\n", "gan = keras.models.Model(gan_input, gan_output)\n", "\n", "gan_optimizer = keras.optimizers.RMSprop(lr=0.0004, clipvalue=1.0, decay=1e-8)\n", "gan.compile(optimizer=gan_optimizer, loss='binary_crossentropy')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## DCGAN 훈련 방법\n", "\n", "이제 훈련을 시작합니다. 훈련 반복의 내용을 요약 정리해 보겠습니다.\n", "\n", "```\n", "매 반복마다 다음을 수행합니다:\n", "\n", " 1.잠재 공간에서 무작위로 포인트를 뽑습니다(랜덤 노이즈).\n", " 2.이 랜덤 노이즈를 사용해 `generator`에서 이미지를 생성합니다.\n", " 3.생성된 이미지와 진짜 이미지를 섞습니다.\n", " 4.진짜와 가짜가 섞인 이미지와 이에 대응하는 타깃을 사용해 `discriminator`를 훈련합니다. 타깃은 “진짜\"(실제 이미지일 경우) 또는 “가짜\"(생성된 이미지일 경우)입니다.\n", " 5.잠재 공간에서 무작위로 새로운 포인트를 뽑습니다.\n", " 6.이 랜덤 벡터를 사용해 `gan`을 훈련합니다. 모든 타깃은 “진짜\"로 설정합니다. 판별자가 생성된 이미지를 모두 “진짜 이미지\"라고 예측하도록 생성자의 가중치를 업데이트합니다(`gan` 안에서 판별자는 동결되기 때문에 생성자만 업데이트합니다). 결국 생성자는 판별자를 속이도록 훈련합니다.\n", "```\n", "\n", "실제로 만들어 보죠:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/haesun/anaconda3/envs/deep-learning-with-python/lib/python3.6/site-packages/keras/engine/training.py:490: UserWarning: Discrepancy between trainable weights and collected trainable weights, did you set `model.trainable` without calling `model.compile` after ?\n", " 'Discrepancy between trainable weights and collected trainable'\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "스텝 0에서 판별자 손실: 0.6859887\n", "스텝 0에서 적대적 손실: 0.6648078\n", "스텝 100에서 판별자 손실: 0.98458844\n", "스텝 100에서 적대적 손실: 15.942385\n", "스텝 200에서 판별자 손실: 0.45530224\n", "스텝 200에서 적대적 손실: 3.9116611\n", "스텝 300에서 판별자 손실: 0.70805806\n", "스텝 300에서 적대적 손실: 0.758634\n", "스텝 400에서 판별자 손실: 0.7023996\n", "스텝 400에서 적대적 손실: 0.76458657\n", "스텝 500에서 판별자 손실: 0.66910684\n", "스텝 500에서 적대적 손실: 0.8703934\n", "스텝 600에서 판별자 손실: 0.7044946\n", "스텝 600에서 적대적 손실: 0.7595641\n", "스텝 700에서 판별자 손실: 0.70370543\n", "스텝 700에서 적대적 손실: 0.7494671\n", "스텝 800에서 판별자 손실: 0.6888744\n", "스텝 800에서 적대적 손실: 0.72338116\n", "스텝 900에서 판별자 손실: 0.70839185\n", "스텝 900에서 적대적 손실: 0.95430785\n", "스텝 1000에서 판별자 손실: 0.68738854\n", "스텝 1000에서 적대적 손실: 0.73358965\n", "스텝 1100에서 판별자 손실: 0.6951221\n", "스텝 1100에서 적대적 손실: 0.76310116\n", "스텝 1200에서 판별자 손실: 0.69487345\n", "스텝 1200에서 적대적 손실: 0.75073826\n", "스텝 1300에서 판별자 손실: 0.70006037\n", "스텝 1300에서 적대적 손실: 0.7711214\n", "스텝 1400에서 판별자 손실: 0.69141567\n", "스텝 1400에서 적대적 손실: 0.762586\n", "스텝 1500에서 판별자 손실: 0.692662\n", "스텝 1500에서 적대적 손실: 0.766914\n", "스텝 1600에서 판별자 손실: 0.70417833\n", "스텝 1600에서 적대적 손실: 0.7402885\n", "스텝 1700에서 판별자 손실: 0.7007116\n", "스텝 1700에서 적대적 손실: 0.788754\n", "스텝 1800에서 판별자 손실: 0.6862414\n", "스텝 1800에서 적대적 손실: 0.90469587\n", "스텝 1900에서 판별자 손실: 0.68944335\n", "스텝 1900에서 적대적 손실: 0.753205\n", "스텝 2000에서 판별자 손실: 0.73440367\n", "스텝 2000에서 적대적 손실: 0.7881855\n", "스텝 2100에서 판별자 손실: 0.68764937\n", "스텝 2100에서 적대적 손실: 0.77248967\n", "스텝 2200에서 판별자 손실: 0.69836366\n", "스텝 2200에서 적대적 손실: 0.77662754\n", "스텝 2300에서 판별자 손실: 0.685547\n", "스텝 2300에서 적대적 손실: 0.75267434\n", "스텝 2400에서 판별자 손실: 0.7113415\n", "스텝 2400에서 적대적 손실: 0.7478822\n", "스텝 2500에서 판별자 손실: 0.698676\n", "스텝 2500에서 적대적 손실: 0.74612296\n", "스텝 2600에서 판별자 손실: 0.6922611\n", "스텝 2600에서 적대적 손실: 0.7469531\n", "스텝 2700에서 판별자 손실: 0.6905508\n", "스텝 2700에서 적대적 손실: 0.7141514\n", "스텝 2800에서 판별자 손실: 0.6967103\n", "스텝 2800에서 적대적 손실: 0.7513309\n", "스텝 2900에서 판별자 손실: 0.69222534\n", "스텝 2900에서 적대적 손실: 0.784592\n", "스텝 3000에서 판별자 손실: 0.6932871\n", "스텝 3000에서 적대적 손실: 0.76088995\n", "스텝 3100에서 판별자 손실: 0.68727434\n", "스텝 3100에서 적대적 손실: 0.6500176\n", "스텝 3200에서 판별자 손실: 0.72109354\n", "스텝 3200에서 적대적 손실: 0.7601031\n", "스텝 3300에서 판별자 손실: 0.69486094\n", "스텝 3300에서 적대적 손실: 0.7491412\n", "스텝 3400에서 판별자 손실: 0.6895932\n", "스텝 3400에서 적대적 손실: 0.7161566\n", "스텝 3500에서 판별자 손실: 0.6968385\n", "스텝 3500에서 적대적 손실: 0.7591454\n", "스텝 3600에서 판별자 손실: 0.6983391\n", "스텝 3600에서 적대적 손실: 0.75471365\n", "스텝 3700에서 판별자 손실: 0.6767294\n", "스텝 3700에서 적대적 손실: 0.8817333\n", "스텝 3800에서 판별자 손실: 0.6919452\n", "스텝 3800에서 적대적 손실: 0.75868195\n", "스텝 3900에서 판별자 손실: 0.7031524\n", "스텝 3900에서 적대적 손실: 0.7505781\n", "스텝 4000에서 판별자 손실: 0.6838635\n", "스텝 4000에서 적대적 손실: 0.75076956\n", "스텝 4100에서 판별자 손실: 0.6887736\n", "스텝 4100에서 적대적 손실: 0.7528058\n", "스텝 4200에서 판별자 손실: 0.69331276\n", "스텝 4200에서 적대적 손실: 0.79471785\n", "스텝 4300에서 판별자 손실: 0.68512636\n", "스텝 4300에서 적대적 손실: 0.75867164\n", "스텝 4400에서 판별자 손실: 0.6883174\n", "스텝 4400에서 적대적 손실: 0.7720972\n", "스텝 4500에서 판별자 손실: 0.7012172\n", "스텝 4500에서 적대적 손실: 0.67885685\n", "스텝 4600에서 판별자 손실: 0.69478226\n", "스텝 4600에서 적대적 손실: 0.7391167\n", "스텝 4700에서 판별자 손실: 0.70749074\n", "스텝 4700에서 적대적 손실: 0.8058073\n", "스텝 4800에서 판별자 손실: 0.7214985\n", "스텝 4800에서 적대적 손실: 1.0094569\n", "스텝 4900에서 판별자 손실: 0.6968532\n", "스텝 4900에서 적대적 손실: 0.76501334\n", "스텝 5000에서 판별자 손실: 0.70068586\n", "스텝 5000에서 적대적 손실: 0.8418042\n", "스텝 5100에서 판별자 손실: 0.6901635\n", "스텝 5100에서 적대적 손실: 0.73663354\n", "스텝 5200에서 판별자 손실: 0.69752437\n", "스텝 5200에서 적대적 손실: 0.72524816\n", "스텝 5300에서 판별자 손실: 0.6945907\n", "스텝 5300에서 적대적 손실: 0.7393595\n", "스텝 5400에서 판별자 손실: 0.69078934\n", "스텝 5400에서 적대적 손실: 0.74214107\n", "스텝 5500에서 판별자 손실: 0.6939332\n", "스텝 5500에서 적대적 손실: 0.7277419\n", "스텝 5600에서 판별자 손실: 0.6989276\n", "스텝 5600에서 적대적 손실: 0.74151313\n", "스텝 5700에서 판별자 손실: 0.6865061\n", "스텝 5700에서 적대적 손실: 0.7271993\n", "스텝 5800에서 판별자 손실: 0.7233262\n", "스텝 5800에서 적대적 손실: 0.99431247\n", "스텝 5900에서 판별자 손실: 0.70499647\n", "스텝 5900에서 적대적 손실: 1.0466232\n", "스텝 6000에서 판별자 손실: 0.6851308\n", "스텝 6000에서 적대적 손실: 0.7371407\n", "스텝 6100에서 판별자 손실: 0.68779993\n", "스텝 6100에서 적대적 손실: 0.7095089\n", "스텝 6200에서 판별자 손실: 0.69324887\n", "스텝 6200에서 적대적 손실: 0.7428337\n", "스텝 6300에서 판별자 손실: 0.68435943\n", "스텝 6300에서 적대적 손실: 0.6888761\n", "스텝 6400에서 판별자 손실: 0.7009553\n", "스텝 6400에서 적대적 손실: 0.7570043\n", "스텝 6500에서 판별자 손실: 0.69860137\n", "스텝 6500에서 적대적 손실: 0.8652438\n", "스텝 6600에서 판별자 손실: 0.6948483\n", "스텝 6600에서 적대적 손실: 0.81759083\n", "스텝 6700에서 판별자 손실: 0.6920208\n", "스텝 6700에서 적대적 손실: 0.71276224\n", "스텝 6800에서 판별자 손실: 0.7139355\n", "스텝 6800에서 적대적 손실: 0.7371713\n", "스텝 6900에서 판별자 손실: 0.6853081\n", "스텝 6900에서 적대적 손실: 0.73708713\n", "스텝 7000에서 판별자 손실: 0.69366324\n", "스텝 7000에서 적대적 손실: 0.79389805\n", "스텝 7100에서 판별자 손실: 0.7064244\n", "스텝 7100에서 적대적 손실: 0.7813763\n", "스텝 7200에서 판별자 손실: 0.6926437\n", "스텝 7200에서 적대적 손실: 0.7462541\n", "스텝 7300에서 판별자 손실: 0.699135\n", "스텝 7300에서 적대적 손실: 0.75480306\n", "스텝 7400에서 판별자 손실: 0.69808084\n", "스텝 7400에서 적대적 손실: 0.7792807\n", "스텝 7500에서 판별자 손실: 0.6886368\n", "스텝 7500에서 적대적 손실: 0.7415221\n", "스텝 7600에서 판별자 손실: 0.698572\n", "스텝 7600에서 적대적 손실: 0.77041376\n", "스텝 7700에서 판별자 손실: 0.6963496\n", "스텝 7700에서 적대적 손실: 0.7734369\n", "스텝 7800에서 판별자 손실: 0.6873445\n", "스텝 7800에서 적대적 손실: 0.78740144\n", "스텝 7900에서 판별자 손실: 0.6971999\n", "스텝 7900에서 적대적 손실: 0.78107464\n", "스텝 8000에서 판별자 손실: 0.6985973\n", "스텝 8000에서 적대적 손실: 0.7444295\n", "스텝 8100에서 판별자 손실: 0.6955716\n", "스텝 8100에서 적대적 손실: 0.7179367\n", "스텝 8200에서 판별자 손실: 0.69686717\n", "스텝 8200에서 적대적 손실: 0.86814547\n", "스텝 8300에서 판별자 손실: 0.7090989\n", "스텝 8300에서 적대적 손실: 0.8461113\n", "스텝 8400에서 판별자 손실: 0.6789621\n", "스텝 8400에서 적대적 손실: 0.7891714\n", "스텝 8500에서 판별자 손실: 0.6828822\n", "스텝 8500에서 적대적 손실: 0.744535\n", "스텝 8600에서 판별자 손실: 0.73256254\n", "스텝 8600에서 적대적 손실: 0.8267523\n", "스텝 8700에서 판별자 손실: 0.6953441\n", "스텝 8700에서 적대적 손실: 0.83365214\n", "스텝 8800에서 판별자 손실: 0.67792505\n", "스텝 8800에서 적대적 손실: 0.7299119\n", "스텝 8900에서 판별자 손실: 0.69003236\n", "스텝 8900에서 적대적 손실: 0.77839434\n", "스텝 9000에서 판별자 손실: 0.68872595\n", "스텝 9000에서 적대적 손실: 0.7916759\n", "스텝 9100에서 판별자 손실: 0.6975969\n", "스텝 9100에서 적대적 손실: 0.7680103\n", "스텝 9200에서 판별자 손실: 0.68702763\n", "스텝 9200에서 적대적 손실: 0.7282267\n", "스텝 9300에서 판별자 손실: 0.7355779\n", "스텝 9300에서 적대적 손실: 0.8837675\n", "스텝 9400에서 판별자 손실: 0.68756074\n", "스텝 9400에서 적대적 손실: 0.9133609\n", "스텝 9500에서 판별자 손실: 0.6581781\n", "스텝 9500에서 적대적 손실: 0.75360084\n", "스텝 9600에서 판별자 손실: 0.6929166\n", "스텝 9600에서 적대적 손실: 0.8556153\n", "스텝 9700에서 판별자 손실: 0.6904553\n", "스텝 9700에서 적대적 손실: 1.0184231\n", "스텝 9800에서 판별자 손실: 0.65708625\n", "스텝 9800에서 적대적 손실: 0.6254333\n", "스텝 9900에서 판별자 손실: 0.68810195\n", "스텝 9900에서 적대적 손실: 0.884272\n" ] } ], "source": [ "import os\n", "from keras.preprocessing import image\n", "\n", "# CIFAR10 데이터를 로드합니다\n", "(x_train, y_train), (_, _) = keras.datasets.cifar10.load_data()\n", "\n", "# 개구리 이미지를 선택합니다(클래스 6)\n", "x_train = x_train[y_train.flatten() == 6]\n", "\n", "# 데이터를 정규화합니다\n", "x_train = x_train.reshape(\n", " (x_train.shape[0],) + (height, width, channels)).astype('float32') / 255.\n", "\n", "iterations = 10000\n", "batch_size = 20\n", "save_dir = './datasets/gan_images/'\n", "if not os.path.exists(save_dir):\n", " os.mkdir(save_dir)\n", "\n", "# 훈련 반복 시작\n", "start = 0\n", "for step in range(iterations):\n", " # 잠재 공간에서 무작위로 포인트를 샘플링합니다\n", " random_latent_vectors = np.random.normal(size=(batch_size, latent_dim))\n", "\n", " # 가짜 이미지를 디코딩합니다\n", " generated_images = generator.predict(random_latent_vectors)\n", "\n", " # 진짜 이미지와 연결합니다\n", " stop = start + batch_size\n", " real_images = x_train[start: stop]\n", " combined_images = np.concatenate([generated_images, real_images])\n", "\n", " # 진짜와 가짜 이미지를 구분하여 레이블을 합칩니다\n", " labels = np.concatenate([np.ones((batch_size, 1)),\n", " np.zeros((batch_size, 1))])\n", " # 레이블에 랜덤 노이즈를 추가합니다. 아주 중요합니다!\n", " labels += 0.05 * np.random.random(labels.shape)\n", "\n", " # discriminator를 훈련합니다\n", " d_loss = discriminator.train_on_batch(combined_images, labels)\n", "\n", " # 잠재 공간에서 무작위로 포인트를 샘플링합니다\n", " random_latent_vectors = np.random.normal(size=(batch_size, latent_dim))\n", "\n", " # 모두 “진짜 이미지\"라고 레이블을 만듭니다\n", " misleading_targets = np.zeros((batch_size, 1))\n", "\n", " # generator를 훈련합니다(gan 모델에서 discriminator의 가중치는 동결됩니다)\n", " a_loss = gan.train_on_batch(random_latent_vectors, misleading_targets)\n", " \n", " start += batch_size\n", " if start > len(x_train) - batch_size:\n", " start = 0\n", "\n", " # 중간 중간 저장하고 그래프를 그립니다\n", " if step % 100 == 0:\n", " # 모델 가중치를 저장합니다\n", " gan.save_weights('gan.h5')\n", "\n", " # 측정 지표를 출력합니다\n", " print('스텝 %s에서 판별자 손실: %s' % (step, d_loss))\n", " print('스텝 %s에서 적대적 손실: %s' % (step, a_loss))\n", "\n", " # 생성된 이미지 하나를 저장합니다\n", " img = image.array_to_img(generated_images[0] * 255., scale=False)\n", " img.save(os.path.join(save_dir, 'generated_frog' + str(step) + '.png'))\n", "\n", " # 비교를 위해 진짜 이미지 하나를 저장합니다\n", " img = image.array_to_img(real_images[0] * 255., scale=False)\n", " img.save(os.path.join(save_dir, 'real_frog' + str(step) + '.png'))" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "가짜 이미지 몇개를 출력해 보죠:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# 잠재 공간에서 랜덤한 포인트를 샘플링합니다\n", "random_latent_vectors = np.random.normal(size=(10, latent_dim))\n", "\n", "# 가짜 이미지로 디코딩합니다\n", "generated_images = generator.predict(random_latent_vectors)\n", "\n", "for i in range(generated_images.shape[0]):\n", " img = image.array_to_img(generated_images[i] * 255., scale=False)\n", " plt.figure()\n", " plt.imshow(img)\n", " \n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "픽셀 경계가 두드러진 개구리처럼 보이는 이미지를 얻었습니다." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.6" } }, "nbformat": 4, "nbformat_minor": 2 }