深度学习面试题08:梯度消失与梯度爆炸

Posted mfryf

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习面试题08:梯度消失与梯度爆炸相关的知识,希望对你有一定的参考价值。

目录

  梯度消失

  梯度爆炸

  参考资料


 

以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失:

技术图片

技术图片

梯度消失

在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25]

 技术图片

那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w1的导数很小,这就是梯度消失。梯度消失的后果就是,w1的更新就会很慢,使得神经网络的学习变得很慢。

解决方法:使用relu(x)这样的激活函数,因为他的导函数的值可以稳定在1,累乘后不会让梯度消失。

 返回目录

 

梯度爆炸

如果模型参数不是(-1,1)之间的数,比如是50,对w1求导时,就会出现很多大的数的累乘,更新参数会出现问题,无法完成网络学习

解决方法:合理的初始化模型参数

 

 返回目录

 

参考资料

对于梯度消失和梯度爆炸的理解

https://www.cnblogs.com/pinking/p/9418280.html

《图解深度学习与神经网络:从张量到TensorFlow实现》_张平

 返回目录

以上是关于深度学习面试题08:梯度消失与梯度爆炸的主要内容,如果未能解决你的问题,请参考以下文章

深度学习中的梯度消失与梯度爆炸及解决方案

深度学习100问之深入理解Vanishing/Exploding Gradient(梯度消失/爆炸)

深度学习系列DNN中梯度消失和梯度爆炸的原因推导

[人工智能-深度学习-36]:卷积神经网络CNN - 简单地网络层数堆叠导致的问题分析(梯度消失梯度弥散梯度爆炸)与解决之道

机器学习面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?

机器学习梯度消失和梯度爆炸的原因分析表现及解决方案