神经网络-梯度优化

Posted 2020-10-12

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了神经网络-梯度优化相关的知识，希望对你有一定的参考价值。

cost function

为了衡量神经网络的识别能力，定义cost function：

　　　　　　　　　　C(w,b)=12n∑x(||y(x)?a||2)

其中，

梯度下降

为了获得适当的参数函数，即新参数，直至使得cost function足够小为止。

　　　　　　　　　　　v→v?η?C?v

而在神经网络中存在两组参数

　　　　　　　　　　　w→w?η?C?w

　　　　　　　　　　　b→b?η?C?b

但是这里会有个小问题，我们回过头来看原本的cost function 计算梯度了，当训练集中的数据庞大时，就势必会影响到模型的整体训练效率。所以由此引出随机梯度下降的概念（stochastic gradient descent）

随机梯度下降

下降法受到训练数据集数量的限制，容易存在效率问题，所以引入随机梯度下降的概念来改善这个问题。既然使用所有的训练集计算梯度会耗费较多的时间，那么我们考虑在所有训练集上随机选取一个小的子集上进行训练，可以认为在这个子集上训练的平均误差与在整个训练集上的训练误差是比较接近的，而又由于训练数据的减少，就可以明显减少模型整体的训练时间。基于这样的想法，我们将所有的训练数据分为若干个子集Xj，有

　　　　　　　　　　∑mj=1?CXjm≈∑x?Cxn=?C

所以

b l \leftarrow b l ? η m \sum j ? C X j ? b l

上述公式的求和是针对当前mini-batch中的所有训练数据进行的，然后再随机选择下一个mini-batch，直至将训练集中的所有训练数据遍历完为止，这样的一个过程称为一个epoch。结束一个epoch后，可以继续进行下一个epoch。epoch的次数以及mini-batch的大小需要单独作为参数设置。

以上是关于神经网络-梯度优化的主要内容，如果未能解决你的问题，请参考以下文章