机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions
Posted AI土木小站
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions相关的知识,希望对你有一定的参考价值。
什么是“无痛”调整
在保证训练稳定的前提下,提升SGD在较大步长下的收敛性和泛化性;
不需要依赖过度参数化,提升神经网络的稳定性和可解释性。
作者把这样的效果称之为“无痛”自适应步长调整。
神奇的LIGHT函数
作者在文章中提到,LIGHT函数的想法来源于人口动态增长的模式。LIGHT函数有两个关键参数r和E。
LIGHT函数的特点是以增长率r指数增长,到达T时刻后,以下降率E下降。
上图展示了当T取0.75时,四种模式下(r和E取不同的值)LIGHT函数的图形。
将LIGHT函数代入损失函数即可实现对步长的自适应调整。
实验结果
作者采用了一层网络,在-ER-模式下,LIGHT函数的r和E分别取4.08和6.4。
下图展示了-ER-模式下三个数据集的训练结果。
下表展示了在Fashion MNIST数据集上不同激活函数达到最佳准确率需要的Epoch。
从表中可以发现,作者提出的SGD步长自适应调整算法的确实现了鱼和熊掌兼得,即同时提升了收敛性和泛化性。
站长认为,这篇文章提出了SGD算法改进的全新视角。文章提出了LIGHT函数,通过设置不同r和E调节收敛性和泛化性,目标实现二者共赢的效果。这一算法的提出着实令人兴奋,虽然在实验中证实了有效性,不过仍需后续大量任务进一步验证稳定性。
END
以上是关于机器学习论文泛读SGD“无痛”步长自适应调整 Feat. IEEE Transactions的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读180反向翻译任务自适应预训练:提高文本分类的准确性和鲁棒性