优化器，sgd，adam等

Posted 2020-12-31 ymjyqsx

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了优化器，sgd，adam等相关的知识，希望对你有一定的参考价值。

https://zhuanlan.zhihu.com/p/32230623

首先定义：待优化参数： $技术分享图片$ ，目标函数： $技术分享图片$ ，初始学习率 $技术分享图片$ 。

而后，开始进行迭代优化。在每个epoch $技术分享图片$ ：

sgd：

先来看SGD。SGD没有动量的概念，也就是说：

$技术分享图片$

代入步骤3，可以看到下降梯度就是最简单的

$技术分享图片$

SGD缺点：下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

SGD with Momentum

sgd引入一阶动量，为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些

$技术分享图片$

t时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定 0.9

怎么样去度量历史更新频率呢？那就是二阶动量——该维度上，迄今为止所有梯度值的平方和：

$技术分享图片$

我们再回顾一下步骤3中的下降梯度：

$技术分享图片$

可以看出，此时实质上的学习率由 $技术分享图片$ 变成了 $技术分享图片$ ，这也是为什么叫自适应学习率

这一方法在稀疏数据场景下表现非常好。但也存在一些问题：因为 $技术分享图片$ 是单调递增的，会使得学习率单调递减至0，可能会使得训练过程提前结束，即便后续还有数据也无法学到必要的知识。

由于AdaGrad单调递减的学习率变化过于激进，我们考虑一个改变二阶动量计算方法的策略：不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度。这也就是AdaDelta名称中Delta的来历。其实只关注了上一个时刻

$技术分享图片$

这就避免了二阶动量持续累积、导致训练过程提前结束的问题了。

谈到这里，Adam和Nadam的出现就很自然而然了——它们是前述方法的集大成者。我们看到，SGD-M在SGD基础上增加了一阶动量，AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum。

SGD的一阶动量：

$技术分享图片$

加上AdaDelta的二阶动量：

$技术分享图片$

优化算法里最常见的两个超参数 $技术分享图片$ 就都在这里了，前者控制一阶动量，后者控制二阶动量。

以上是关于优化器，sgd，adam等的主要内容，如果未能解决你的问题，请参考以下文章