损失函数的爆炸式增长，LSTM 自动编码器

Posted 2023-02-23

技术标签:

【中文标题】损失函数的爆炸式增长，LSTM 自动编码器【英文标题】：Explosion in loss function, LSTM autoencoder 【发布时间】：2020-07-01 17:53:16 【问题描述】：

我正在训练一个 LSTM 自动编码器，但损失函数会随机上升，如下图所示：我尝试了多种方法来防止这种情况，调整批量大小，调整层中的神经元数量，但似乎没有任何帮助。我检查了我的输入数据以查看它是否包含 null / infinity 值，但它没有，它也被标准化。这是我的参考代码：

model = Sequential()
model.add(Masking(mask_value=0, input_shape=(430, 3)))
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2, activation='relu'))
model.add(RepeatVector(430))
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2, activation='relu', return_sequences=True))
model.add(TimeDistributed(Dense(3)))
model.compile(optimizer='adam', loss='mean_squared_error', metrics=['accuracy'])

context_paths = loadFile()
X_train, X_test = train_test_split(context_paths, test_size=0.20)

history = model.fit(X_train, X_train, epochs=1, batch_size=4, verbose=1, validation_data=(X_test, X_test))

损失函数在随机时间点爆炸，有时更快，有时更晚。我阅读了this 线程中可能存在的问题，但是在尝试了多种方法之后，我不知道该怎么做才能防止损失函数随机飙升。任何建议表示赞赏。除此之外，我可以看到我的准确性并没有提高很多，所以问题可能是相互关联的。

【问题讨论】：

今天同样的问题！我不知道为什么！我正在使用 Adam 作为基础优化器构建 LSTM 自动编码器。 【参考方案1】：

两个要点：

第 1 点正如 Daniel Möller 所强调的：不要对 LSTM 使用“relu”，保留标准激活“tanh”。

第二点：修复爆炸梯度的一种方法是使用 clipnorm 或 clipvalue 作为优化器

在最后两行尝试这样的操作

对于clipnorm：

opt = tf.keras.optimizers.Adam(clipnorm=1.0)

对于剪辑值：

opt = tf.keras.optimizers.Adam(clipvalue=0.5)

请参阅此帖子以获取帮助（TF 的先前版本）： How to apply gradient clipping in TensorFlow?

这个帖子的一般解释： https://machinelearningmastery.com/how-to-avoid-exploding-gradients-in-neural-networks-with-gradient-clipping/

【讨论】：

谢谢你的建议，损失函数的爆炸性是通过去除ReLUs解决的，所以我没有尝试过clipnorm和clipvalue。那你就好了，不用玩那些了！如果您计划在几个不同的数据集上进行训练，那么无论如何包含安全网参数可能会很有用。 @Dr.H.Lecter。非常感谢医生！它的工作原理是我在第一个时代得到 inf ，然后在以后的时代得到 nan 。我用 tanh 替换了 relu 并且还使用了 clipnorm，它现在工作正常，但我仍然得到高损失：Epoch 1/10 1/1 - 8s - loss: 91188.7188 Epoch 2/10 1/1 - 0s - loss: 91179.7031 Epoch 3/10 1/1 - 0s - loss: 91169.9688 Epoch 4/10 1/1 - 0s - loss: 91157.8672 请知道为什么会这样吗？顺便说一句，我的原始数据有很多 0 和 1 以及正值和负值的混合。我也确实对我的数据进行了规范化。我删除了0和1，现在我的损失是0.9！但是，这些删除的值很重要，因为它们意味着关闭和打开变电站。请问这是个好主意吗！【参考方案2】：

两个主要问题：

不要将'relu' 用于LSTM，保留标准激活，即'tanh'。因为 LSTM 是“循环的”，所以它们很容易将值的增长或减少累积到使数字无用的程度。检查您的数据范围X_train 和X_test。确保它们不是太大。 -4和+4之间的东西有点好。如果数据尚未标准化，您应该考虑对其进行标准化。

请注意，“准确性”对于非分类问题没有任何意义。（我注意到你的最终激活是“线性的”，所以你没有做分类，对吧？）

最后，如果上面的两个提示不起作用。检查您是否有一个全为零的示例，这可能是在创建“全掩码”序列，而这个“可能”（我不知道）会导致错误。

(X_train == 0).all(axis=[1,2]).any() #should be false

【讨论】：

现在我只是想使用自动编码器来学习我的数据的表示。稍后当我达到足够准确的断点时，我想将编码器部分与自定义聚类层结合使用，以便（希望）将我的数据划分为清晰的聚类。所以从某种意义上说，它是没有预先设计的类的分类。我的最终操作是线性的，因为我的数据在 [-2, 2] 范围内，并且我没有找到任何具有这样范围的激活函数，tanh 只是 [-1,1]。好吧，-2到2是合理的，但是LSTM中的“relu”确实很麻烦。不要使用它，保留默认值。 --- 如果您的模型的初始预测与此范围相差太远，您可能希望在最后一个 Dense 之前或之后进行 BatchNormalization（不是真正必要的）。非常感谢。我做了你提到的关于tanh和clipvalue的事情，但我仍然有很高的损失。可能是因为我每行有一半由 0 和 1 组成？但是删除它们可能会产生错误的结果？如果我错了，请纠正我？ 1/10 1/1 - 9s - 损失：91187.0781 2/10 1/1 - 0s - 损失：91178.6875 3/10 1/1 - 0s - 损失：91168.4688 这是我用 tanh 替换 relu 后前 3 个 epoch 得到的结果（高损失！）：Epoch 1/10 1/1 - 9s - loss: 91189.1953 Epoch 2/10 1/1 - 0s - loss: 91176.1953 Epoch 3/10 1/1 - 0s - loss: 91164.1172 ...当我从我的每一行中删除 0s 和 1s 时，结果得到更好的 loss 大约为 0.9。但是删除这些值并不是一个好主意，因为这些值意味着开关的关闭和打开。请问有什么想法吗？ @DanielMöller 谢谢；这有帮助！ --- 我得到了 NaN，用于预测 3 年天气数据集中 7 个变量的输入的一个输出，使用以下方法：model = Sequential() model.add(LSTM(64, activation='relu', input_shape=(trainX.shape [1], trainX.shape[2]), return_sequences=True)) model.add(LSTM(32, activation='relu', return_sequences=False)) model.add(Dropout(0.1)) model.add(Dense (14, activation='relu')) model.compile(optimizer= Adam(learning_rate = 0.0001), loss="mean_squared_error")......还有什么其他的改进建议吗？？

以上是关于损失函数的爆炸式增长，LSTM 自动编码器的主要内容，如果未能解决你的问题，请参考以下文章