机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions

Posted AI土木小站

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions相关的知识,希望对你有一定的参考价值。


最近,站长在IEEE Transactions on Neural Networks and Learning Systems上读到一篇关于SGD步长调整算法的文章,题目是Painless step size adaption for SGD。题目中“无痛”二字着实吸引人眼球,于是站长带着好奇心阅读了文章。



什么是“无痛”调整




神经网络的训练一个必须面对的问题就是如何平衡收敛性和泛化性。事实上,这两者往往是背道而驰的。优化收敛性会加速训练,但无法保证好的泛化性。

对于SGD来说,每一次优化的步长是固定的。在最新的研究中发现,采用适当大的步长可以加速收敛,但泛化性较差。

到底什么使得神经网络泛化性提升?越来越多的研究表明SGD最大化测试准确率的步长通常比最小化训练损失的大。正则化项的引入同样说明了这一点。一种解释是随着步长增大,正则化项开始“惩罚”梯度,使得训练损失非单调。

因此,作者提出了一种名为LIGHT的激活函数,并设置了四种模式。
【机器学习论文泛读】SGD“无痛”步长自适应调整 Feat. IEEE Transactions
-default-:默认模式,没有提升
-r-:收敛性提升
-E-:泛化性提升
-Er-:收敛性和泛化性同时提升

通过对LIGHT函数四种模式的设置,实现以下目标:

  1.  在保证训练稳定的前提下,提升SGD在较大步长下的收敛性和泛化性;

  2. 不需要依赖过度参数化,提升神经网络的稳定性和可解释性。


作者把这样的效果称之为“无痛”自适应步长调整。





神奇的LIGHT函数




作者在文章中提到,LIGHT函数的想法来源于人口动态增长的模式。LIGHT函数有两个关键参数r和E。

【机器学习论文泛读】SGD“无痛”步长自适应调整 Feat. IEEE Transactions

LIGHT函数的特点是以增长率r指数增长,到达T时刻后,以下降率E下降。

【机器学习论文泛读】SGD“无痛”步长自适应调整 Feat. IEEE Transactions

上图展示了当T取0.75时,四种模式下(r和E取不同的值)LIGHT函数的图形。


将LIGHT函数代入损失函数即可实现对步长的自适应调整。




实验结果





作者采用了一层网络,在-ER-模式下,LIGHT函数的r和E分别取4.08和6.4。


下图展示了-ER-模式下三个数据集的训练结果。

【机器学习论文泛读】SGD“无痛”步长自适应调整 Feat. IEEE Transactions

下表展示了在Fashion MNIST数据集上不同激活函数达到最佳准确率需要的Epoch。

【机器学习论文泛读】SGD“无痛”步长自适应调整 Feat. IEEE Transactions

从表中可以发现,作者提出的SGD步长自适应调整算法的确实现了鱼和熊掌兼得,即同时提升了收敛性和泛化性。


站长认为,这篇文章提出了SGD算法改进的全新视角。文章提出了LIGHT函数,通过设置不同r和E调节收敛性和泛化性,目标实现二者共赢的效果。这一算法的提出着实令人兴奋,虽然在实验中证实了有效性,不过仍需后续大量任务进一步验证稳定性。


END

请长按下方二维码关注我们
记得把我们设置为星标

以上是关于机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读120预测文本相似性领域自适应的成功

论文泛读180反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性

论文泛读180反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性

论文泛读183用于小样本文本分类的元学习对抗域适应网络

论文泛读183用于小样本文本分类的元学习对抗域适应网络

matlab编程中如何做到自适应调整for循环中的步长