误差逆传播(error BackPropagation, BP)算法推导及向量化表示

Posted 2020-08-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了误差逆传播(error BackPropagation, BP)算法推导及向量化表示相关的知识，希望对你有一定的参考价值。

1、前言

看完讲卷积神经网络基础讲得非常好的cs231后总感觉不过瘾，主要原因在于虽然知道了卷积神经网络的计算过程和基本结构，但还是无法透彻理解卷积神经网络的学习过程。于是找来了进阶的教材Notes on Convolutional Neural Networks，结果刚看到第2章教材对BP算法的回顾就犯难了，不同于之前我学习的对每一个权值分别进行更新的公式推导，通过向量化表示它只用了5个式子就完成了对连接权值更新公式的描述，因此我第一眼看过去对每个向量的内部结构根本不清楚。原因还估计是自己当初学习得不够深入，正好离上次自己推导BP算法已经过去挺长时间了，所以重新拿起教材学习复习了一下并逐个对应起来，最终把Notes on Convolutional Neural Networks中的向量化表示搞清楚了。本篇就是对上面的复习和对应过程的详细记录，如果看完并自己推导一遍的话肯定能清楚BP算法的每个更新公式是怎么来的。

2、符号定义

任何不说明符号含义就开始的推导就是耍流氓，所以此部分对用于推导的网络结构和符号进行说明。基本采用了周志华教授的《机器学习》书中的符号定义，不过自己还是做了些符号变更。

网络结构：

图1. 全连接的网络结构，从上到下依次为输出层、隐含层和输入层

符号说明：

：输出层第j个神经元的输出(j=1,2,…,l);

：输出层第j个神经元的偏置;

：输出层第j个神经元的输入;

：隐含层第h个神经元的输出(h=1,2,…,q);

：隐含层第h个神经元的偏置;

：隐含层第h个神经元的输入;

：输入层第i个神经元的输入;

：隐含层第h个神经元和输出层第j个神经元之间的连接权值;

：输入层第i个神经元和隐含层第h个神经元之间的连接权值;

例如图1中的两条橙色直线即分别代表上述两个权值所在的连接

3、问题目标

对于某一个样例它的输入可以描述成：

已知该输入的期望输出为：

而它的实际输出为：

我们的目标即为利用上述信息更新网络中的参数，从而使误差减小。

4、详细推导

首先采用均方误差公式来衡量误差：

(1) 技术分享

其中我们有：

(2)

上式的意思是输出层神经元的输出可以由它的输入、偏置再加上激活函数f(*)确定。并且它的输入等于隐含层神经元的输出与连接权值的乘积之和，即：

(3) 技术分享

-------------------------下面是隐含层和输出层之间连接权值更新公式的推导-----------------------------

BP算法使用梯度下降法调整参数,从而使误差向减小的方向移动。因此连接权值的更新公式可以表示为：

(4)

(5)

其中式(4)中的是学习速率。可以看出我们的任务就是求出式(4)，然后就可以通过和旧的连接权值相加完成权值的更新。然而式(4)中的偏导数无法直接求出，需要利用链式法则进行转换。为了进行转换我们首先需要知道隐含层和输出层之间的连接权值是如何影响到最终的均方误差E的。显然它首先会影响到输出层神经元的输入，再影响到输出层神经元的输出，最终影响到均方误差E。所以根据上述描述我们可以构造出链式法则：