2. DNN神经网络的反向更新（BP）

Posted 2021-01-21 huangyc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2. DNN神经网络的反向更新（BP）相关的知识，希望对你有一定的参考价值。

1. 前言

DNN前向传播介绍了DNN的网络是如何的从前向后的把数据传递过去的，但是只有这个过程还不够，我们还需要想办法对所有参数进行一个梯度的更新，才能使得网络能够慢慢的学习到新的东西。

在神经网络中有一种通用的方法来更新参数，叫做反向更新BP。

2. DNN反向更新过程

根据前面的前向传播的过程我们得到了一个传播公式，其中(sigma)是激活函数，对具体的函数不做要求，可以是线性激活函数，也可以是非线性激活函数。

[ a^l = sigma(z^l) = sigma(W^la^{l-1} + b^l);;;;;;(0) ]
我们假设DNN的损失函数是MSE，其中(a^L)是输出层的输出：

[ J(W,b,x,y) = frac{1}{2}||a^L-y||_2^2 ]
对低(l)层的(W,b)求导数有：

[ frac{partial J(W,b,x,y)}{partial W^l} = frac{partial J(W,b,x,y)}{partial z^l} frac{partial z^l}{partial W^l};;;;;;(1) ]

[ frac{partial J(W,b,x,y)}{partial b^l} = frac{partial J(W,b,x,y)}{partial z^l} frac{partial z^l}{partial b^l};;;;;;(2) ]
我们令

[ delta^l =frac{partial J(W,b,x,y)}{partial z^l};;;;;;(3) ]

把(3)带入(1)(2)得到下式(4)(5)
[ frac{partial J(W,b,x,y)}{partial W^l} = delta^{l}(a^{l-1})^T;;;;;;(4) ]

[ frac{partial J(W,b,x,y)}{partial b^l} = delta^{l};;;;;;(5) ]
我们只要求出(delta^l)的表达式，就能求出每一层的(W^l,b^l)的梯度，就能对每层进行梯度更新。

由(3)不难得出

[ delta^{l} = frac{partial J(W,b,x,y)}{partial z^l} = frac{partial J(W,b,x,y)}{partial z^{l+1}}frac{partial z^{l+1}}{partial z^{l}} = delta^{l+1}frac{partial z^{l+1}}{partial z^{l}};;;;;;(6) ]
又因为有

[ z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}sigma(z^l) + b^{l+1};;;;;;(7) ]
根据(6)(7)我们得出

[ delta^{l} = delta^{l+1}frac{partial z^{l+1}}{partial z^{l}} = (W^{l+1})^Tdelta^{l+1}odot sigma^{'}(z^l);;;;;;(8) ]
现在我们有了一个(delta^{l})和(delta^{l+1})的递推公式，我们只要求出最后一层的(delta^{L})，就能算出所有层的(delta^{l})，然后根据(4)(5)可以算出每层的参数的梯度并进行更新。

如果理解了上面的过程，相比读者对计算(delta^{L})已经不在话下了：
[ delta^L = frac{partial J(W,b,x,y)}{partial z^L} = (a^L-y)odot sigma^{'}(z^L) ]

到此为止，我们已经能成功的更新了每层的梯度，整个网络在理论上已经能够跑通了。不过在此说明两点。