梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate

Posted 天泽28

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate相关的知识,希望对你有一定的参考价值。

梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate


梯度下降算法中的学习率技术分享(learning rate)很难确定,下面介绍一些寻找技术分享的实用技巧。首先看下如何确定你的梯度下降算法正在正常工作:一般是要画出代价函数技术分享 和迭代次数之间的图像,如下图所示。如果技术分享随着迭代次数的增加不断下降,那么说明梯度下降算法工作的很好,当到达一定迭代次数后技术分享基本持平时,说明技术分享已经收敛了,可以选取此时的技术分享作为参数。一般选取一个数技术分享小于技术分享,如果技术分享下降的幅度小于技术分享,则认为收敛了。

技术分享


下面给出判断梯度下降不正常工作的判断方法及解决方法:如下图所示,当技术分享随着迭代次数增加反而增加时,说明梯度下降算法工作的不正常。一般的解决办法是缩小学习率技术分享的值。如果学习率技术分享过大,会出现如下图右所示的情况,下降的幅度过大,跳过了全局最小值。下图下方所示的图形问题,解决办法也是缩小学习率技术分享的值。
技术分享



关于学习率技术分享的取值:由上面我们可以知道,当技术分享过大时,技术分享可能不降反升。需要缩小技术分享的取值,但是如果技术分享取值过小,会导致技术分享收敛的非常慢。因为如何选取一个合适的技术分享很重要。下图给出选取技术分享的方法。

技术分享

技术分享
















以上是关于梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate的主要内容,如果未能解决你的问题,请参考以下文章

pytorch 动态调整学习率,学习率自动下降,根据loss下降

李宏毅《机器学习》丨3. Gradient Descent(梯度下降)

pytorch 动态调整学习率,学习率自动下降,根据loss下降

随机梯度下降收敛(Stochastic gradient descent convergence)

梯度下降中的学习率如何确定

梯度下降法(Gradient Descent)