当神经网络不收敛时要尝试的事情

Posted 2023-03-12

技术标签:

【中文标题】当神经网络不收敛时要尝试的事情【英文标题】：Things to try when Neural Network not Converging 【发布时间】：2014-02-02 10:05:11 【问题描述】：

关于神经网络的最受欢迎的问题之一似乎是：

帮助！！我的神经网络没有收敛！！

请参阅here、here、here、here 和 here。

那么在消除网络实现中的任何错误之后，应该尝试的最常见的事情是什么？

我知道要尝试的事情会因网络架构而异。但是调整哪些参数（学习率、动量、初始权重等）并实现哪些新功能（窗口动量？），您能够在构建自己的神经网络时克服一些类似的问题吗？

如果可能，请给出与语言无关的答案。这个问题旨在为那些被困在不收敛的神经网络中的人提供一些指导。

【问题讨论】：

您的问题中的链接太多。您将通过措辞更好的问题获得更多意见。然而，这是一个很好的话题！祝你好运。不要忘记标准化您的数据。 【参考方案1】：

如果您使用 ReLU 激活，您可能会遇到"dying ReLU" 问题。简而言之，在某些条件下，任何具有 ReLU 激活的神经元都可能受到（偏差）调整，导致它永远不会再次被激活。它可以通过“Leaky ReLU”激活来修复，在那篇文章中有很好的解释。

例如，我制作了一个带有 ReLU 输出的简单 MLP（3 层）网络，但失败了。我提供了它不可能失败的数据，但它仍然失败了。我把学习率调低了，它失败得更慢了。它总是收敛于以相等的概率预测每个类别。通过使用 Leaky ReLU 而不是标准 ReLU，这一切都得到了解决。

【讨论】：

【参考方案2】：

如果我们谈论的是分类任务，那么您应该在训练您的网络之前打乱示例。我的意思是，不要用数千个类#1的例子，在数千个类#2的例子之后，等等......如果你这样做，你的网络很可能不会收敛，但会倾向于预测最后一次训练类。

【讨论】：

【参考方案3】：

在您尝试了不同的元参数（优化/架构）之后，最有可能查看的地方是 - THE DATA

至于我自己 - 为了尽量减少对元参数的摆弄，我让我的优化器保持自动化 - Adam 是可选的。

有一些关于应用程序与架构的经验法则......但最好自己处理这些规则。

重点： 以我的经验，在你调试了网络（简单的调试）之后，仍然没有收敛或达到不希望的局部最小值，通常的怀疑是数据。天气你有矛盾的样本或只是不正确的样本（异常值），少量可以使从 0.6-acc 到（清洁后）0.9-acc..

一个较小但黄金（干净）的数据集比一个大的略脏的数据集要好得多...... 通过增强，您可以进一步调整结果。

【讨论】：

【参考方案4】：

我在实现自己的 back prop 神经网络时遇到了这个问题。我尝试了以下方法：

实施动量（并将值保持在 0.5）将学习率保持在 0.1 绘制了每个神经元的误差、权重、输入和输出，以图表形式查看数据更有助于找出问题所在尝试了不同的激活函数（都是 sigmoid）。但这对我帮助不大。将所有权重初始化为介于 -0.5 和 0.5 之间的随机值（我的网络输出在 -1 和 1 范围内）我没有尝试过，但Gradient Checking 也有帮助

【讨论】：

由于我是从零开始实现神经网络的，结果发现更新函数有错误。我通过梯度检查找到了它。但在每种情况下，确切的问题可能会有所不同。【参考方案5】：

如果问题只是收敛（而不是实际的“训练有素的网络”，这对于 SO 来说是一种广泛的问题），那么一旦代码正常，唯一可能成为问题的是训练方法参数。如果使用朴素的反向传播，那么这些参数是learning rate 和momentum。对于任何初始化和任何架构，正确实现的神经网络都应该收敛，以便更好地选择这两个参数（事实上，对于momentum=0，它也应该收敛到 some 解决方案，足够小的learning rate)。

特别是 - 有一种很好的启发式方法称为“弹性反向传播”，它实际上是无参数方法，应该（几乎）总是收敛（假设正确实施）。

【讨论】：

以上是关于当神经网络不收敛时要尝试的事情的主要内容，如果未能解决你的问题，请参考以下文章