LSTM缓解梯度消失的原因
Posted elaine-dwl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSTM缓解梯度消失的原因相关的知识,希望对你有一定的参考价值。
\\(c_t=c_t-1 \\otimes \\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) \\oplus \\tanh \\left(W_c \\cdot\\left[H_t-1, X_t\\right]\\right) \\otimes \\sigma\\left(W_i \\cdot\\left[H_t-1, X_t\\right]\\right)\\)
反向传播公式:
\\(\\beginaligned \\frac\\partial E_k\\partial W=& \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial C_k \\frac\\partial C_k\\partial C_k-1 \\ldots \\frac\\partial C_2\\partial C_1 \\frac\\partial C_1\\partial W=\\\\ & \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial C_k\\left(\\prod_t=2^k \\frac\\partial C_t\\partial C_t-1\\right) \\frac\\partial C_1\\partial W \\endaligned\\)
括号中的部分是累乘项:
$\\frac\\partial c_t\\partial c_t-1=\\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) + $
\\(\\fracdd \\mathcalC_t-1\\left(\\tanh \\left(W_c \\cdot\\left[H_t-1, X_t\\right]\\right) \\otimes \\sigma\\left(W_i \\cdot\\left[H_t-1, X_t\\right]\\right)\\right)\\)
也就是说,这里的累乘单元是两项和形式,其中前部分是遗忘门的值。遗忘门决定了上一个细胞状态的保留比例,其取值可以接近于1,也就是说可以把遗忘门看成:\\(\\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right) \\approx \\overrightarrow1\\),所以LSTM中:
\\(\\frac\\partial E_k\\partial W \\approx \\frac\\partial E_k\\partial H_k \\frac\\partial H_k\\partial c_k\\left(\\Pi_t=2^k \\sigma\\left(W_f \\cdot\\left[H_t-1, X_t\\right]\\right)\\right) \\frac\\partial C_1\\partial w \\nrightarrow 0\\)
所以,LSTM能缓解梯度消失。
以上是关于LSTM缓解梯度消失的原因的主要内容,如果未能解决你的问题,请参考以下文章