随机梯度下降批尺寸的影响

Posted 2021-01-25 jiangkejie

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了随机梯度下降批尺寸的影响相关的知识，希望对你有一定的参考价值。

随机梯度下降批尺寸有什么影响呢？？？

当数据量足够大的时候可以适当的减小batch_size,由于数据量太大，内存不够。但盲目减少会导致无法收敛，batch_size=1时为在线学习，

也是标准的SGD，这样学习，如果数据量不大，noise数据存在时，模型容易被noise带偏，如果数据量足够大，noise的影响会被“冲淡”，对模型几乎不影响。

Batch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，下面逐一展开。

首先，为什么需要有 Batch_Size 这个参数？

Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：

其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。

其二，由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。Full Batch Learning 可以使用 Rprop 只基于梯度符号并且针对性单独

更新各权值。

对于更大的数据集，以上 2 个好处又变成了 2 个坏处：

其一，随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行。

其二，以 Rprop 的方式迭代，会由于各个 Batch 之间的采样差异性，各次梯度修正值相互抵消，无法修正。这才有了后来 RMSProp 的妥协方案。

既然 Full Batch Learning 并不适用大数据集，那么走向另一个极端怎么样？

所谓另一个极端，就是每次只训练一个样本，即 Batch_Size = 1。这就是在线学习（Online Learning）。

线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆。对于多层神经元、非线性网络，在局部依然近似是抛物面。

使用在线学习，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。如图所示：

技术分享图片

可不可以选择一个适中的 Batch_Size 值呢？

当然可以，这就是批梯度下降法（Mini-batches Learning）。因为如果数据集足够充分，那么用一半（甚至少得多）的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。

在合理范围内，增大 Batch_Size 有何好处？

盲目增大 Batch_Size 有何坏处？

技术分享图片

运行结果如上图所示，其中绝对时间做了标幺化处理。运行结果与上文分析相印证：

---------------------
作者：ycheng_sjtu
来源：CSDN
原文：https://blog.csdn.net/ycheng_sjtu/article/details/49804041

以上是关于随机梯度下降批尺寸的影响的主要内容，如果未能解决你的问题，请参考以下文章