优化算法梯度下降SGDMomentumAdagradAdam

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了优化算法梯度下降SGDMomentumAdagradAdam相关的知识,希望对你有一定的参考价值。

优化算法、梯度下降、随机梯度下降(SGD)、动量法(Momentum)、自适应法(Adagrad)、动量自适应(Adam)

 

概述:

在机器学习算法实践中,优化总是重头戏,也是最考验功底的地方。深度学习得益于后向传播的有效方式,往往普通的随机梯度下降优化就可以取得不错的训练效果,优化的重要性不像机器学习那么突出,大部分学者都聚焦于新模型或者新应用的创新。但是深度学习优化方面的研究也不少,很多方法也很有效,尤其在数据量较大的时候。常见的优化算法有随机梯度下降、动量、NAG等。

优化算法分为两类:其中一类是以动量为核心的算法;另一类是以自适应为核心的算法。当然,这两类算法之间也存在着一定的重叠。以动量为核心的算法更容易在山谷型的优化曲面中找到最优解,以自适应为核心的算法容易在各种场景下找到平衡。理论上,结合两种算法的效应应该更好,因此Adam和它的一些改进算法的效果通常不错,但是其计算量也响应增加一些,这一点在使用时同样需要靠权衡。

以上是关于优化算法梯度下降SGDMomentumAdagradAdam的主要内容,如果未能解决你的问题,请参考以下文章

梯度下降优化算法综述

梯度下降优化算法综述

优化算法—梯度下降

梯度下降法和粒子群优化算法的区别

梯度下降算法的原理是啥?

梯度下降优化算法综述(翻译)