GAN没有收敛。判别者损失不断增加

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GAN没有收敛。判别者损失不断增加相关的知识,希望对你有一定的参考价值。

我正在mnist数据集上创建一个简单的生成对抗网络。

这是我的实施:

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/",one_hot=True)

def noise(batch_size):
    return np.random.uniform(-1, 1, (batch_size, 100))

learning_rate = 0.001
batch_size = 128

input = tf.placeholder('float', [None, 100])
real_data = tf.placeholder('float', [None, 784])

def generator(x):
    weights = {
        'hl1' : tf.Variable(tf.random_normal([100, 200])),
        'ol'  : tf.Variable(tf.random_normal([200, 784]))
    }
    biases = {
        'hl1' : tf.Variable(tf.random_normal([200])),
        'ol'  : tf.Variable(tf.random_normal([784]))
    }

    hl1 = tf.add(tf.matmul(x, weights['hl1']), biases['hl1'])
    ol = tf.nn.sigmoid(tf.add(tf.matmul(hl1, weights['ol']), biases['ol']))

    return ol


def discriminator(x):
    weights = {
        'hl1' : tf.Variable(tf.random_normal([784, 200])),
        'ol'  : tf.Variable(tf.random_normal([200, 1]))
    }
    biases = {
        'hl1' : tf.Variable(tf.random_normal([200])),
        'ol'  : tf.Variable(tf.random_normal([1]))
    }

    hl1 = tf.add(tf.matmul(x, weights['hl1']), biases['hl1'])
    ol = tf.nn.sigmoid(tf.add(tf.matmul(hl1, weights['ol']), biases['ol']))

    return ol

with tf.variable_scope("G"):
    G = generator(input)

with tf.variable_scope("D"):
    D_real = discriminator(real_data)

with tf.variable_scope("D", reuse = True):
    D_gen = discriminator(G)

generator_parameters = [x for x in tf.trainable_variables() if x.name.startswith('G/')]
discriminator_parameters = [x for x in tf.trainable_variables() if x.name.startswith('D/')]

G_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=D_gen, labels=tf.ones_like(D_gen)))
D_real_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=D_real, labels=tf.ones_like(D_real)))
D_fake_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=D_gen, labels=tf.zeros_like(D_gen)))
D_total_loss = tf.add(D_fake_loss, D_real_loss)

G_train = tf.train.AdamOptimizer(learning_rate).minimize(G_loss,var_list=generator_parameters)
D_train = tf.train.AdamOptimizer(learning_rate).minimize(D_total_loss,var_list=discriminator_parameters)

sess = tf.Session()
init = tf.global_variables_initializer()

sess.run(init)

loss_g_function = []
loss_d_function = []

for epoch in range(200):
    for iteratiion in range(int(len(mnist.train.images)/batch_size)):
        real_batch, _ = mnist.train.next_batch(batch_size)

        _, d_err = sess.run([D_train, D_total_loss], feed_dict = {real_data : real_batch, input : noise(batch_size)})
        _, g_err = sess.run([G_train, G_loss], feed_dict = {input : noise(batch_size)})

    print("Epoch = ", epoch)
    print("D_loss = ", d_err)
    print("G_loss = ", g_err)
    loss_g_function.append(g_err)
    loss_d_function.append(d_err)

# Visualizing
import matplotlib.pyplot as plt

test_noise = noise(1)

plt.subplot(2, 2, 1)
plt.plot(test_noise[0])
plt.title("Noise")
plt.subplot(2, 2, 2)
plt.imshow(np.reshape(sess.run(G, feed_dict = {input : test_noise})[0], [28, 28]))
plt.title("Generated Image")
plt.subplot(2, 2, 3)
plt.plot(loss_d_function, 'r')
plt.xlabel("Epochs")
plt.ylabel("Discriminator Loss")
plt.title("D-Loss")
plt.subplot(2, 2, 4)
plt.plot(loss_g_function, 'b')
plt.xlabel("Epochs")
plt.ylabel("Generator Loss")
plt.title("G_Loss")
plt.show()

我尝试过lr = 0.001 lr = 0.0001lr = 0.00003

这些是我的结果:https://imgur.com/a/6KUnO1H

可能是什么原因?我的权重初始化是从正态分布中随机抽取的。另外,请检查丢失功能,它们是否正确?

答案

问题:


它只有一层:

hl1 = tf.add(tf.matmul(x, weights['hl1']), biases['hl1'])    
ol = tf.nn.sigmoid(tf.add(tf.matmul(hl1, weights['ol']), biases['ol']))

为鉴别器和发生器定义的上述网络没有为第一层定义激活。这字面意思是网络只是一层:y = act(w2(x*w1+b1)+b2) = act(x*w+b)


Sigmoid应用了两次:

ol = tf.nn.sigmoid(tf.add(tf.matmul(hl1, weights['ol']) ...
D_real_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(...)

如评论中所述,激活应用两次。


重量初始化:

tf.Variable(tf.random_normal([784, 200]))

在S形激活的情况下,如果权重很大,则梯度将很小,这意味着权重实际上不会改变值。 (更大的w +非常小的delta(w))。可能是为什么当我运行上面的代码时,损失似乎没有太大变化。最好采用行业最佳实践并使用类似:xavier_initializer()


动态范围不一致:generator的输入处于[-1,1]的动态范围内,它被乘以[-1,1]的权重,但是被输出到[0 1]范围。这没有任何问题,偏见可以学习映射输出范围。但最好使用激活层,输出[-1,1]像tanh,这样网络可以更快地学习。如果使用tanh作为generator的激活,那么输入到descriminator的图像需要缩放到[-1 1]以获得训练一致性。


通过以上更改,您可以获得类似于:

enter image description here

上述网络非常简单,输出质量也不高。我故意没有改变复杂性,以找出一个简单的网络可以输出什么样的输出。

您可以构建一个更大的网络(包括CNN),并尝试最近的GAN模型以获得更好的质量结果。


可以从here获得用于再现上述代码。

以上是关于GAN没有收敛。判别者损失不断增加的主要内容,如果未能解决你的问题,请参考以下文章

将 torch.backward() 用于 GAN 生成器时,为啥 Pytorch 中的判别器损失没有变化?

GAN的一些问题

gan算法不包括以下哪个模型

GAN - 生成器损失减少,但鉴别器假损失在初始下降后增加,为啥?

生成对抗网络(GAN)详细介绍及数字手写体生成应用仿真(附代码)

卷积神经网络之GAN(附完整代码)