机器学习之反向传播算法

Posted 2020-09-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习之反向传播算法相关的知识，希望对你有一定的参考价值。

这一章可能是Andrew Ng讲得最不清楚的一章，为什么这么说呢？这一章主要讲后向传播(Backpropagration, BP)算法，Ng花了一大半的时间在讲如何计算误差项

简单神经网络的后向传播（Backpropagration, BP）算法

1. 回顾之前的前向传播(ForwardPropagration, FP)算法

FP算法还是很简单的，说白了就是根据前一层神经元的值，先加权然后取sigmoid函数得到后一层神经元的值，写成数学的形式就是:

a (1) = X

z (2) = Θ (1) a (1)

a (2) = g (z (2))

z (3) = Θ (2) a (2)

a (3) = g (z (3))

z (4) = Θ (3) a (3)

a (4) = g (z (4))

2. 回顾神经网络的代价函数(不含regularization项)

3. 一个简单神经网络的BP推导过程

BP算法解决了什么问题？我们已经有了代价函数

下面我们从一个简单的例子入手考虑如何从数学上计算代价函数的梯度，考虑如下简单的神经网络（为方便起见，途中已经给出了前向传播（FP）的计算过程），该神经网络有三层神经元，对应的有两个权重矩阵

技术分享

首先我们先计算第2个权重矩阵的偏导数，即

按照求导的链式法则，我们可以先求

? ? Θ ( 2 ) J ( Θ ) = ? ? z ( 3 ) J ( Θ ) \times ? z ( 3 ) ?

由

? ? Θ ( 2 ) J ( Θ ) = δ ( 3 ) ( a ( 2 ) ) T

接下来仅需要计算

δ (3) = ? J ( Θ ) z ( 3 ) = ( ? y )

至此我们已经得到

? J ( Θ ) ? Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (3) = a (3) ? y

接下来我们需要求

根据链式求导法则有

? J ( Θ ) ? Θ ( 1 ) = ? J ( Θ ) ? z ( 3 ) ? z

我们分别计算等式右边的三项可得:

? J ( Θ ) ? z ( 3 ) = δ ( 3 )

? z ( 3 ) ? a ( 2 ) = ( Θ ( 2 ) ) T

? a ( 2 ) ? Θ ( 1 ) = ? a ( 2 ) ? z ( 2 ) ? z

带入后得

? J ( Θ ) ? Θ ( 1 ) = ( a ( 1 ) ) T δ ( 3 ) ( Θ ( 2 ) ) T

令

? J ( Θ ) ? Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

把上面的结果放在一起，我们得到

δ (3) = a (3) ? y

? J ( Θ ) ? Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

? J ( Θ ) ? Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

观察上面的四个等式，我们发现

偏导数可以由当前层神经元向量
当前层的误差向量

所以可以从后往前逐层计算误差向量（这就是后向传播的来源），然后通过简单的乘法运算得到代价函数对每一层权重矩阵的偏导数。到这里算是终于明白为什么要计算误差向量，以及为什么误差向量之间有递归关系了。尽管这里的神经网络十分简单，推导过程也不是十分严谨，但是通过这个简单的例子，基本能够理解后向传播算法的工作原理了。

严谨的后向传播算法（计算梯度）

假设我们有

初始化：设置

For i = 1 : m

设置
通过前向传播算法（FP）计算对各层的预测值
计算最后一层的误差向量
更新

end // for

计算梯度:

D (l) i j = 1 m Δ ( l ) i j , j = 0

D (l) i j = 1 m Δ ( l ) i j + λ m Θ ( l ) i j , j \neq 0

? J ( Θ ) ? Θ ( l ) = D ( l )

BP实际运用中的技巧

1. 将参数展开成向量

对于四层三个权重矩阵参数

thetaVec = [Theta1(:); Theta2(:); Theta3(:)];

2. 梯度检查

为了保证梯度计算的正确性，可以用数值解进行检查，根据导数的定义

d J ( θ ) d θ \approx J ( θ + ? ) ? J ( θ ? ? ) 2 ?

Matlab Code 如下

for i = 1 : n
    thetaPlus = theta;
    thetaPlus(i) = thetaPlus(i) + EPS;
    thetaMinus = theta;
    thetaMinus(i) = thetaMinus(i) - EPS;
    gradApprox(i) = (J(thetaPlus) - J(thetaMinus)) / (2 * EPS);
end