机器学习笔记：神经网络层的各种normalization

Posted 2021-09-20 UQI-LIUWJ

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习笔记：神经网络层的各种normalization相关的知识，希望对你有一定的参考价值。

1 Normalization的引入

1.1 独立同分布

机器学习，尤其是深度学习的模型，如果它的数据集时独立同分布的（i.i.d. independent and identically distributed），那么模型的效果最好。

独立同分布的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力

因此，很多模型在将数据喂入机器学习模型之前，都会有一步“白化”（whitening）操作。

白化一般包含两个目的：

（1）去除特征之间的相关性 —> 独立；

（2）使得所有特征具有相同的均值和方差 —> 同分布。

1.2 内部协变量偏移（Internal Covariate Shift， ICS）

神经网络模型，尤其是深度神经网络模型，训练困难的一个重要原因是，深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化。

通过层层叠加，高层的输入分布变化相比于底层来说，回有很大的出入。

为了训好模型，我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。

1.2.1 用公式解释ICS

统计机器学习中的一个经典假设是，“源空间（source domain）和目标空间（target domain）的数据分布是一致的。（如果不一致，那么就出现了新的机器学习问题，如迁移学习transfer learning等）

而 ICS就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同

对于神经网络的各层输出，由于它们经过了层内操作作用，其分布会有很大的概率与各层对应的输入信号分布不同（所以）。

这个层内输出和输入之间的差异会随着网络深度增大而增大。可是它们所能“指示”的样本标记（即P(Y|X)，已知输入X之后的输出Y）仍然是不变的。

1.2.2 ICS的问题

神经网络不同层的参数需要不断适应新的输入数据分布，降低学习速度。
下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区（比如下层的输出很大，上层又接了一个tanh激活函数，上层输出没有什么区别），使得学习过早停止
每层的更新都会影响到其它层，因此每层的参数更新策略需要尽可能的谨慎。

1.2.3 梯度饱和

sigmoid激活函数和tanh激活函数存在梯度饱和的区域，其原因是激活函数的输入值过大或者过小，其得到的激活函数的梯度值会非常接近于0，使得网络的收敛速度减慢

传统的方法是使用不存在梯度饱和区域的激活函数，例如ReLU等。

batch normalization(BN)也可以缓解梯度饱和的问题，它的策略是在调用激活函数之前将Wx+b 的值归一化到梯度值比较大的区域。

2 Batch normalization

本小节主要来自：【深度学习李宏毅】 Batch Normalization （中文）_哔哩哔哩_bilibili

2.1 feature scaling

我们回想一下之前说的feature scaling（机器学习笔记：梯度下降_UQI-LIUWJ的博客-CSDN博客）

假设参数x1和参数x2的重要性是一样的，但是由于x2参数的数量级远远大于x1参数，所以如果w1,w2同等变化的话，x2对于loss的影响会更大。

这种情况我们可以对不同变量设置不同的learning rate，但是这样的话，比较繁琐，而且参数量多的情况下也不一定好做。

于是我们对参数进行normalization的方法，将x1和x2参数都归一化到相同的数量级（相同的分布）【如上图右所示】，此时w1,w2同等变化的时候，x1,x2对loss的影响相似。

于是对输入参数x1,x2,...xn，我们对参数的每一个维度，计算一个均值一个标准差，将参数的每一个维度分别进行归一化。

2.2 batch normalization的引入

        现在我们有很多层的神经网络。我们从layer2的角度看，layer1的输出a1，就是layer2的输入。

        那么对于layer2来说，我们也希望它的输入也可以被normalize一下。

        但是，此时layer2的输入和layer1的输入不同之处在于，layer1的输入就是整个模型的输入，取决于数据集，是固定不变的。

        但是随着网络的不断训练，layer1参数的不断更新，layer2的输入也会相应的一直变动，于是我们需要在训练过程中不断地计算均值和方差。

这时候我们就需要一种技术来计算均值和方差，这种技术就是batch normalization

2.3 Batch

在开始介绍batch normalization之前，我们再回顾一下batch的知识。

在数据集很大的时候，我们一般会挑出一些数据组成一个batch，来更新神经网络各层的参数（SGD,stochastic gradient descent）

以上图为例，我们的batch_size=3，那么每一次我们选择三条数据x1,x2,x3，就会分别取计算它们经过神经网络之后的output，然后利用output反向传播更新参数