SGD、Adam优化器

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SGD、Adam优化器相关的知识,希望对你有一定的参考价值。

参考技术A https://blog.csdn.net/yukinoai/article/details/84198218( 博客 全)
https://blog.csdn.net/weixin_40170902/article/details/80092628
https://www.jianshu.com/p/ee39eca29117( 损失函数)
https://www.cnblogs.com/wyuzl/p/7645602.html(BGD 实例)
1.优化损失函数
损失函数:为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。在线性回归中,损失函数通常为样本输出和假设函数的差取平方。
优化损失函数说明了就是想让损失函数收敛到了一定的值,这样模型才是最优的。
梯度下降优化法经历了SGD→SGDM→NAG→AdaGrad→AdaDelta→Adam→Nadam 这样的发展历程。之所以会不断地提出更加优化的方法,是引入了动量Momentum概念。

2.梯度下降法调优
梯度下降法就好比一个蒙着眼睛的人下山,每次在负梯度最大的方向,向前走一步,走出一步后,比较前后的的落差,
若落差小于一定阈值,则认为到达山谷,若落差大于阈值,则继续向前走,直到到达山谷。

在梯度下降法中调优比较重要的是3个因素,步长、初始值、归一化
(1)步长:又称学习率,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。
步长太小,收敛慢,步长太大,会远离最优解。所以需要从小到大,分别测试,选出一个最优解。
(2)初始值:随机选取初始值,当损失函数是非凸函数时,找到的解可能是局部最优解,需要多测试几次,
从局部最优解中选出最优解。当损失函数是凸函数时,得到的解就是最优解。
(3)归一化:如果不归一化,会收敛的很慢,会形成之字的路线。

3.BGD SDG MBGD
批量梯度下降法BGD
gradient = np.dot(xTrains, loss) / m #对所有的样本进行求和,然后除以样本数
theta = theta - alpha * gradient
随机梯度下降
gradient = loss[index1]*x[index1] #只取这一个点进行更新计算
theta = theta - alpha * gradient.T
BGD
计算梯度时使用所有的样本,这样每次算出来的梯度都是当前最优的方向。
优点:迭代次数少; 若损失函数为凸函数,能够保证收敛到全局最优解;若为非凸函数,能够收敛到局部最优值(结果的准确度)
缺点:训练速度慢(时间,每一次训练需要的时间);需要内存大(空间);不支持在线更新
SGD:
和BGD类似,区别在与求梯度时没有用所有的m个样本的数据,而是仅仅选取一个样本j来求梯度
优点:训练速度快; 支持在线更新; 有几率跳出局部最优解
缺点:容易收敛到局部最优,并且容易被困在鞍点; 迭代次数多

4.牛顿法
基本思想是对损失函数的二阶泰勒展开进行求导。本质上牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。
梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,
坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。
(牛顿法目光更加长远,所以少走弯路;相对而言,梯度下降法只考虑了局部的最优,没有全局思想。)

5.Momentum [mə'mentəm] 动量优化器
Momentum旨在加速学习,特别是处理高曲率、小但一致的梯度,或带噪音的梯度。
Momentum算法会观察历史梯度(动量),若当前梯度的方向与历史梯度一致(表明当前样本不太可能为异常点),
则会增强这个方向的梯度,若当前梯度与历史梯方向不一致,则梯度会衰减。

形象理解:一个球推下山,球在下坡时积累惯性(动量),在途中若球运动方向不变,因为惯性球会越来越快,若球的方向发生变化,因为惯性球的速度会变慢。
加入的这一项,可以使得梯度方向不变的维度上速度变快,梯度方向有所改变的维度上的更新速度变慢,这样就可以加快收敛并减小震荡。
超参数设定值: 一般 γ 取值 0.9 左右。
缺点:相当于盲目地沿着坡滚,如果它能具备一些先知,例如快要上坡时,就知道需要减速了的话,适应性会更好。

6.NAG(Nesterov Momentum)
Momentum方法中梯度方向由积累的动量和当前梯度方法共同决定,与其看当前梯度方向,不妨先看看跟着积累的动量走一步是什么情况,再决定怎么走。
在小球向下滚动的过程中,我们希望小球能够提前知道在哪些地方坡面会上升,这样在遇到上升坡面之前,小球提前就开始减速,就不容易陷入局部最优解。

7.Adagrad(Adaptive gradient algorithm)
自适应梯度法。它通过记录每次迭代过程中的前进方向和距离,从而使得针对不同问题,有一套自适应调整学习率的方法,
对于出现频率较低参数采用较大的α更新;相反,对于出现频率较高的参数采用较小的α更新。

8.RMSprop
Adagrad会累加之前所有的梯度平方,而RMSprop仅仅是计算对应的平均值,因此可缓解Adagrad算法学习率下降较快的问题。

9.Adam
Adam是另一种自适应学习率的方法。总结以上算法,以SGD作为最初的算法,Momentum在其基础上加入了一阶动量(历史梯度的累计),
AdaGrad和RMSProp在其基础上加入了二阶动量(历史梯度的平方累计),Adam就是结合了一阶动量和二阶动量算法。

10.Nadam
Adam是集大成者,而Nadam = Adam + NAG。

以上是关于SGD、Adam优化器的主要内容,如果未能解决你的问题,请参考以下文章

优化器,sgd,adam等

神经网络优化算法 (BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

优化器

Pytorch优化器全总结常用优化器性能对比 含代码

如何选择优化器 optimizer

模型学习SGD但不学习Adam