GAN（敵対的生成ネットワーク）をPythonで実装

プログラミング

2026.01.12

GAN (敵対的生成ネットワーク) のPython実装

GAN (敵対的生成ネットワーク) のPython実装

GAN (Generative Adversarial Network) は、2つのニューラルネットワーク（生成器と識別器）が互いに競い合いながら学習を進めることで、本物そっくりのデータを生成する深層学習モデルです。このモデルは、画像生成、データ拡張、異常検知など、幅広い応用が期待されています。ここでは、Pythonを用いたGANの基本的な実装について解説します。

GANの構成要素

GANは、以下の2つの主要なコンポーネントから構成されます。

生成器 (Generator)

生成器は、ランダムなノイズベクトルを入力として受け取り、それをもとに新しいデータを生成します。例えば、画像生成の場合、ランダムな数値の集まりから、人間が見て自然な画像を生成しようとします。

識別器 (Discriminator)

識別器は、入力されたデータが本物（訓練データセットから提供される）か、それとも生成器によって生成された偽物かを識別します。識別器は、本物のデータと偽のデータを区別する能力を高めるように学習します。

学習プロセス

GANの学習は、生成器と識別器が互いに競い合う「敵対的」なプロセスを通じて行われます。

生成器は、ランダムなノイズからデータを生成し、識別器に渡します。
識別器は、与えられたデータが本物か偽物かを判定し、その結果を生成器にフィードバックします。
生成器は、識別器が「偽物」と判定する確率を最小化するように、自身のパラメータを更新します。つまり、より巧妙に識別器を騙せるようなデータを生成しようとします。
識別器は、本物のデータを「本物」と、生成器が生成した偽物を「偽物」と正しく分類できるように、自身のパラメータを更新します。

このプロセスを繰り返すことで、最終的には生成器は非常にリアルなデータを生成できるようになり、識別器は本物と偽物を区別することが困難になります。

Pythonによる実装例 (Keras/TensorFlowを使用)

ここでは、画像生成を想定した基本的なGANの実装例を、Keras (TensorFlowのAPI) を用いて示します。

import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Reshape, Flatten, Conv2D, Conv2DTranspose, LeakyReLU, Dropout
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.optimizers import Adam
import numpy as np

# 生成器の定義
def build_generator(latent_dim):
    model = Sequential()
    model.add(Dense(7 * 7 * 128, activation="relu", input_dim=latent_dim))
    model.add(Reshape((7, 7, 128)))
    model.add(Conv2DTranspose(128, kernel_size=4, strides=2, padding="same", activation="relu"))
    model.add(Conv2DTranspose(64, kernel_size=4, strides=2, padding="same", activation="relu"))
    model.add(Conv2D(1, kernel_size=4, padding="same", activation="tanh")) # 出力は画像 (例: 28x28, 1チャンネル)
    return model

# 識別器の定義
def build_discriminator(img_shape):
    model = Sequential()
    model.add(Conv2D(64, kernel_size=3, strides=2, input_shape=img_shape, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.4))
    model.add(Conv2D(128, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.4))
    model.add(Flatten())
    model.add(Dense(1, activation="sigmoid")) # 0:偽物, 1:本物
    return model

# GANモデルの構築
def build_gan(generator, discriminator):
    discriminator.trainable = False # GAN学習時は識別器を固定

    model = Sequential()
    model.add(generator)
    model.add(discriminator)

    return model

# パラメータ設定
latent_dim = 100 # ノイズベクトルの次元
img_rows = 28
img_cols = 28
channels = 1
img_shape = (img_rows, img_cols, channels)

# モデルのコンパイル
optimizer_d = Adam(0.0002, 0.5)
optimizer_g = Adam(0.0002, 0.5)

# 識別器の構築とコンパイル
discriminator = build_discriminator(img_shape)
discriminator.compile(loss="binary_crossentropy", optimizer=optimizer_d, metrics=["accuracy"])

# 生成器の構築
generator = build_generator(latent_dim)

# GANモデルの構築とコンパイル
gan = build_gan(generator, discriminator)
gan.compile(loss="binary_crossentropy", optimizer=optimizer_g)

# 学習ループ (簡略化)
# 実際には、画像データセット (例: MNIST) をロードし、エポックごとに学習を実行します。
# この部分では、学習の概念を示すためのプレースホルダーです。

# 1. 本物の画像データを準備
# real_images = load_real_images(...)

# 2. ノイズを生成
# noise = np.random.normal(0, 1, (batch_size, latent_dim))

# 3. 生成器で偽の画像を生成
# generated_images = generator.predict(noise)

# 4. 識別器で本物と偽物を分類
# real_labels = np.ones((batch_size, 1))
# fake_labels = np.zeros((batch_size, 1))

# 5. 識別器の学習
# d_loss_real = discriminator.train_on_batch(real_images, real_labels)
# d_loss_fake = discriminator.train_on_batch(generated_images, fake_labels)
# d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

# 6. GAN (生成器) の学習
# noise_for_gan = np.random.normal(0, 1, (batch_size, latent_dim))
# fake_labels_for_gan = np.ones((batch_size, 1)) # 生成器は識別器を騙したいので、本物とラベル付け
# g_loss = gan.train_on_batch(noise_for_gan, fake_labels_for_gan)

# 上記の学習ステップをエポックごとに繰り返します。

実装上の注意点と発展

損失関数

GANの学習では、二項クロスエントロピーが一般的に使用されます。生成器は識別器を騙すように学習し、識別器は本物と偽物を正しく分類するように学習するため、それぞれの損失関数は対照的な目標を持ちます。

最適化

GANの学習は不安定になりがちです。学習率、バッチサイズ、オプティマイザ (Adamなどがよく使われます) の選択が重要です。また、学習率の減衰なども有効な場合があります。

モード崩壊 (Mode Collapse)

GANの学習における一般的な問題として、モード崩壊があります。これは、生成器が訓練データの多様性を捉えきれず、少数の限られた種類のデータしか生成しなくなる現象です。これを防ぐために、様々な改良手法が提案されています。

GANの派生モデル

基本的なGANの他に、DCGAN (Deep Convolutional GAN)、WGAN (Wasserstein GAN)、StyleGAN、CycleGANなど、多くの派生モデルが存在します。これらのモデルは、学習の安定化、生成されるデータの品質向上、特定のタスクへの特化などを目的として開発されています。

ハイパーパラメータチューニング

GANの性能は、ハイパーパラメータ (学習率、バッチサイズ、ネットワーク構造、ノイズベクトルの次元など) に大きく依存します。そのため、根気強いハイパーパラメータチューニングが必要になることがあります。

まとめ

GANは、生成器と識別器の敵対的な学習を通じて、高品質なデータを生成する強力なフレームワークです。PythonとKeras/TensorFlowを用いることで、その基本的な実装を行うことができます。学習の安定化やモード崩壊といった課題もありますが、活発な研究開発により、様々な改良手法が提案されており、その応用範囲は広がり続けています。