归一化输入梯度消失/爆炸

Posted 2023-01-16 劳埃德·福杰

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了归一化输入梯度消失/爆炸相关的知识，希望对你有一定的参考价值。

1.归一化输入特征（Normalizing input features）

归一化就是让训练数据均值为0，方差为1。一共两步，假设训练集有两个输入特征，x= $\text{[math]}$ 。

①零均值化

$\text{[math]}$ := $\text{[math]}$ - $\text{[math]}$

②归一化方差(normalize the variances)

$\text{[math]}$ /= $\text{[math]}$ ，

第二个图是零均值化后的图，此时，特征x1的方差要比X2大。第三个图是归一化方差后的图。

归一化能加快训练神经网络，为什么？

J为成本函数。如果两个特征的范围不同，比如一个在[0,1]，一个在[0,1000]，成本函数如左图，归一化，如右图，梯度下降会更快一些。

梯度消失/爆炸其实就是梯度过小或过大，导致梯度下降会花很多时间。

以上是关于归一化输入梯度消失/爆炸的主要内容，如果未能解决你的问题，请参考以下文章