随机梯度下降法(Stochastic gradient descent, SGD)
Posted focusonoutput
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机梯度下降法(Stochastic gradient descent, SGD)相关的知识,希望对你有一定的参考价值。
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新
SGD(Stochastic gradientdescent)随机梯度下降法:每次迭代使用一组样本(样本量大)Mold 把一批数据过完才更新一次
针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭代把所有样本都过一遍,每训练一组样本就把梯度更新一次。而SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
以上是关于随机梯度下降法(Stochastic gradient descent, SGD)的主要内容,如果未能解决你的问题,请参考以下文章
随机梯度下降 Stochastic gradient descent
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比
随机梯度下降收敛(Stochastic gradient descent convergence)
随机梯度下降(stochastic gradient descent),批梯度下降(batch gradient descent),正规方程组(The normal equations)
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比实现对比
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比实现对比[转]