LSTM缓解梯度消失的原因

Posted elaine-dwl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSTM缓解梯度消失的原因相关的知识,希望对你有一定的参考价值。

技术图片

\\(c_t=c_t-1 \\otimes \\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) \\oplus \\tanh \\left(W_c \\cdot\\left[H_t-1, X_t\\right]\\right) \\otimes \\sigma\\left(W_i \\cdot\\left[H_t-1, X_t\\right]\\right)\\)

反向传播公式:

\\(\\beginaligned \\frac\\partial E_k\\partial W=& \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial C_k \\frac\\partial C_k\\partial C_k-1 \\ldots \\frac\\partial C_2\\partial C_1 \\frac\\partial C_1\\partial W=\\\\ & \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial C_k\\left(\\prod_t=2^k \\frac\\partial C_t\\partial C_t-1\\right) \\frac\\partial C_1\\partial W \\endaligned\\)

括号中的部分是累乘项:

$\\frac\\partial c_t\\partial c_t-1=\\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) + $
\\(\\fracdd \\mathcalC_t-1\\left(\\tanh \\left(W_c \\cdot\\left[H_t-1, X_t\\right]\\right) \\otimes \\sigma\\left(W_i \\cdot\\left[H_t-1, X_t\\right]\\right)\\right)\\)

也就是说,这里的累乘单元是两项和形式,其中前部分是遗忘门的值。遗忘门决定了上一个细胞状态的保留比例,其取值可以接近于1,也就是说可以把遗忘门看成:\\(\\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) \\approx \\overrightarrow1\\),所以LSTM中:

\\(\\frac\\partial E_k\\partial W \\approx \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial c_k\\left(\\Pi_t=2^k \\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right)\\right) \\frac\\partial C_1\\partial w \\nrightarrow 0\\)

所以,LSTM能缓解梯度消失。

以上是关于LSTM缓解梯度消失的原因的主要内容,如果未能解决你的问题,请参考以下文章

出现梯度消失和梯度爆炸的原因及解决方案

RNN中的梯度消失爆炸原因

深度学习系列DNN中梯度消失和梯度爆炸的原因推导

机器学习梯度消失和梯度爆炸的原因分析表现及解决方案

机器学习梯度消失和梯度爆炸的原因分析表现及解决方案

梯度爆炸和梯度消失的本质原因