梯度下降

Posted 2021-01-08 cjr0707

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了梯度下降相关的知识，希望对你有一定的参考价值。

梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路。

随机梯度下降Stochastic gradient descent）

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

优点最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

BGD会得到一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果m很大，效率会很低。

优点：最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小。

以上是关于梯度下降的主要内容，如果未能解决你的问题，请参考以下文章