神经网络：神秘的ReLu

Question

我一直在构建一个编程语言检测器，即代码片段的分类器，作为更大项目的一部分。我的基线模型非常简单：将输入标记化并将片段编码为单词包，或者在这种情况下为标记包，并在这些功能之上创建一个简单的NN。

NN的输入是固定长度的大多数独特标记的计数器阵列，例如"def"，"self"，"function"，"->"，"const"，"#include"等，它们是从语料库中自动提取的。这个想法是这些令牌对于编程语言来说是非常独特的，所以即使是这种天真的方法也应该获得高准确度。

Input:
  def   1
  for   2
  in    2
  True  1
  ):    3
  ,:    1

  ...

Output: python

建立

我很快就获得了99％的准确率，并认为这是符合预期的标志。这是模型（完整的可运行脚本是here）：

# Placeholders
x = tf.placeholder(shape=[None, vocab_size], dtype=tf.float32, name='x')
y = tf.placeholder(shape=[None], dtype=tf.int32, name='y')
training = tf.placeholder_with_default(False, shape=[], name='training')

# One hidden layer with dropout
reg = tf.contrib.layers.l2_regularizer(0.01)
hidden1 = tf.layers.dense(x, units=96, kernel_regularizer=reg, 
                          activation=tf.nn.elu, name='hidden1')
dropout1 = tf.layers.dropout(hidden1, rate=0.2, training=training, name='dropout1')

# Output layer
logits = tf.layers.dense(dropout1, units=classes, kernel_regularizer=reg,
                         activation=tf.nn.relu, name='logits')

# Cross-entropy loss
loss = tf.reduce_mean(
    tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, abels=y))

# Misc reports: accuracy, correct/misclassified samples, etc.
correct_predicted = tf.nn.in_top_k(logits, y, 1, name='in-top-k')
prediction = tf.argmax(logits, axis=1)
wrong_predicted = tf.logical_not(correct_predicted, name='not-in-top-k')
x_misclassified = tf.boolean_mask(x, wrong_predicted, name='misclassified')
accuracy = tf.reduce_mean(tf.cast(correct_predicted, tf.float32), name='accuracy')

输出非常令人鼓舞：

iteration=5  loss=2.580  train-acc=0.34277
iteration=10  loss=2.029  train-acc=0.69434
iteration=15  loss=2.054  train-acc=0.92383
iteration=20  loss=1.934  train-acc=0.98926
iteration=25  loss=1.942  train-acc=0.99609
Files.VAL mean accuracy = 0.99121             <-- After just 1 epoch!

iteration=30  loss=1.943  train-acc=0.99414
iteration=35  loss=1.947  train-acc=0.99512
iteration=40  loss=1.946  train-acc=0.99707
iteration=45  loss=1.946  train-acc=0.99609
iteration=50  loss=1.944  train-acc=0.99902
iteration=55  loss=1.946  train-acc=0.99902
Files.VAL mean accuracy = 0.99414

测试精度也在1.0左右。一切看起来都很完美。

神秘的ReLu

但后来我注意到我将activation=tf.nn.relu放入最后的密集层（logits），这显然是一个错误：没有必要在softmax之前丢弃负分数，因为它们表明概率很低的类。零门槛只会使这些类人为地更加可能，这将是一个错误。摆脱它应该只会使模型在正确的类中更加健壮和自信。

那正是我所想。所以我用activation=None替换它，再次运行模型然后发生了一件令人惊讶的事情：性能没有提高。完全没有。事实上，它显着下降：

iteration=5  loss=5.236  train-acc=0.16602
iteration=10  loss=4.068  train-acc=0.18750
iteration=15  loss=3.110  train-acc=0.37402
iteration=20  loss=5.149  train-acc=0.14844
iteration=25  loss=2.880  train-acc=0.18262
Files.VAL mean accuracy = 0.28711

iteration=30  loss=3.136  train-acc=0.25781
iteration=35  loss=2.916  train-acc=0.22852
iteration=40  loss=2.156  train-acc=0.39062
iteration=45  loss=1.777  train-acc=0.45312
iteration=50  loss=2.726  train-acc=0.33105
Files.VAL mean accuracy = 0.29362

训练的准确性越来越好，但从未超过91-92％。我来回多次改变激活，改变不同的参数（图层大小，丢失，正规化，额外的图层，任何东西）并且总是有相同的结果：“错误”模型立即达到99％，而“正确”模型几乎没有50个时代后达到了90％。根据张量板，体重分布没有太大差异：梯度没有消失，两种模型都能正常学习。

这怎么可能？最终的ReLu如何使模型如此优越？特别是如果这个ReLu是一个bug？

神经网络：神秘的ReLu

建立

神秘的ReLu

预测分布

`tf.nn.in_top_k`

结论