TensorFlow:神经网络在训练集和测试集上的准确率始终为 100%
Posted
技术标签:
【中文标题】TensorFlow:神经网络在训练集和测试集上的准确率始终为 100%【英文标题】:TensorFlow: Neural Network accuracy always 100% on train and test sets 【发布时间】:2018-02-21 14:09:53 【问题描述】:我创建了一个 TensorFlow 神经网络,它有 2 个隐藏层,每个隐藏层有 10 个单元,每个单元使用 ReLU 激活和 Xavier 初始化作为权重。输出层有 1 个单元输出二进制分类(0 或 1),使用 sigmoid 激活函数根据输入特征分类它是否相信泰坦尼克号上的乘客幸存下来。
(唯一省略的代码是 load_data 函数,它填充了程序后面使用的变量 X_train、Y_train、X_test、Y_test)
参数
# Hyperparams
learning_rate = 0.001
lay_dims = [10,10, 1]
# Other params
m = X_train.shape[1]
n_x = X_train.shape[0]
n_y = Y_train.shape[0]
输入
X = tf.placeholder(tf.float32, shape=[X_train.shape[0], None], name="X")
norm = tf.nn.l2_normalize(X, 0) # normalize inputs
Y = tf.placeholder(tf.float32, shape=[Y_train.shape[0], None], name="Y")
初始化权重和偏差
W1 = tf.get_variable("W1", [lay_dims[0],n_x], initializer=tf.contrib.layers.xavier_initializer())
b1 = tf.get_variable("b1", [lay_dims[0],1], initializer=tf.zeros_initializer())
W2 = tf.get_variable("W2", [lay_dims[1],lay_dims[0]], initializer=tf.contrib.layers.xavier_initializer())
b2 = tf.get_variable("b2", [lay_dims[1],1], initializer=tf.zeros_initializer())
W3 = tf.get_variable("W3", [lay_dims[2],lay_dims[1]], initializer=tf.contrib.layers.xavier_initializer())
b3 = tf.get_variable("b3", [lay_dims[2],1], initializer=tf.zeros_initializer())
转发道具
Z1 = tf.add(tf.matmul(W1,X), b1)
A1 = tf.nn.relu(Z1)
Z2 = tf.add(tf.matmul(W2,A1), b2)
A2 = tf.nn.relu(Z2)
Y_hat = tf.add(tf.matmul(W3,A2), b3)
BackProp
cost = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=tf.transpose(Y_hat), labels=tf.transpose(Y)))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)
会话
# Initialize
init = tf.global_variables_initializer()
with tf.Session() as sess:
# Initialize
sess.run(init)
# Normalize Inputs
sess.run(norm, feed_dict=X:X_train, Y:Y_train)
# Forward/Backprob and update weights
for i in range(10000):
c, _ = sess.run([cost, optimizer], feed_dict=X:X_train, Y:Y_train)
if i % 100 == 0:
print(c)
correct_prediction = tf.equal(tf.argmax(Y_hat), tf.argmax(Y))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print("Training Set:", sess.run(accuracy, feed_dict=X: X_train, Y: Y_train))
print("Testing Set:", sess.run(accuracy, feed_dict=X: X_test, Y: Y_test))
在运行 10,000 次训练后,成本每次下降,因此表明 learning_rate 还可以,并且成本函数看起来正常。然而,在训练之后,我所有的 Y_hat 值(对训练集的预测)都是 1(预测乘客幸存)。所以基本上预测只是为每个训练示例输出 y=1。
另外,当我在 Y_hat 上运行 tf.argmax 时,结果是一个全 0 的矩阵。当 tf.argmax 应用于 Y(ground truth 标签)时也会发生同样的事情,这很奇怪,因为 Y 包含训练示例的所有正确标签。
非常感谢任何帮助。谢谢。
【问题讨论】:
我不明白“看起来我来自 Y_hat 的所有数据都是 1 或接近 1,我训练模型的时间越长,我在 Y_hat 和 Y 上的所有 argmax 值(其中有0 或 1) 的基本事实标签显示为 0。”这句话非常令人困惑。你能改写一下吗? 刚刚进行了编辑。这样更好吗? 【参考方案1】:我假设您的 Y_hat 是一个 (1,m) 矩阵,其中 m 是训练示例的数量。然后tf.argmax(Y_hat)
将全部为 0。根据 tensorflow 文档,argmax
返回张量轴上具有最大值的索引。
如果不传入axis,则将axis设置为0。由于axis 0只有一个值,因此返回的索引始终为0。
【讨论】:
帮助很大。我认为我对 argmax 的使用是我在网上找到的每个准确度示例的产物,这些示例用于使用各种“one_hot”标签评估网络。示例通常使用 tf.argmax(foo, 1) 来给出在 one_hot 向量中选择了哪个标签【参考方案2】:我知道我迟到了,但我还要指出,由于您的标签矩阵的形状为 (n,1),即只有 1 个类可以预测,因此,交叉熵没有意义.在这种情况下,您应该使用不同的东西来计算成本(可能是均方误差或类似的东西)。 我最近在做大学项目时遇到了类似的问题,我找到了一个解决方法,我把这个二进制输出变成了 2 个类,比如存在和缺席,所以如果它存在,它就是 [1,0]。我知道这不是最好的方法,但当您需要立即工作时,它会很有帮助。
【讨论】:
您当时可能一直在使用分类交叉熵损失。二元交叉熵适用于二元分类问题 是的,有道理以上是关于TensorFlow:神经网络在训练集和测试集上的准确率始终为 100%的主要内容,如果未能解决你的问题,请参考以下文章
R语言plotly可视化:使用plotly可视化简单线性回归模型的回归线使用不同颜色区分训练集和测试集可视化分析模型在测试集上的泛化性能(linear regression plots)
R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型并评估模型在测试集和训练集上的分类效果(accurayF1偏差Deviance):Bagging算法与随机森林对比
R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accurayF1偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机)