15BP神经网络算法

Posted FinTech修行僧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了15BP神经网络算法相关的知识,希望对你有一定的参考价值。

BP神经网络算法


神经网络有很多种:前向传输网络、反向传输网络、递归神经网络、卷积神经网络等。本文介绍基本的反向传输神经网络(Backpropagation 简称BP),主要讲述算法的基本流程和自己在训练BP神经网络的一些经验。


BP(error BackPropagation,简称BP)神经网络算法,又称反向传播算法,误差逆传播算法


BP神经网络的结构


神经网络就是模拟人的大脑的神经单元的工作方式,但进行了很大的简化。神经网络由很多神经网络层构成,而每一层又由许多单元组成,第一层叫输入层,最后一层叫输出层,中间的各层叫隐藏层。在BP神经网络中,只有相邻的神经层的各个单元之间有联系,除了输出层外,每一层都有一个偏置结点,如下所示:

【15】BP神经网络算法


虽然图中隐藏层只画了一层,但其层数并没有限制。传统的神经网络学习经验认为一层就足够好,而最近的深度学习不这么认为。


偏置结点是为了描述训练数据中没有的特征,于是便可以认为偏置是每一个结点(除输入层外)的属性,我们将偏置bias结点在图中省略掉,如下:

【15】BP神经网络算法


在描述BP神经网络的训练之前,我们先来看看神经网络各层都有哪些属性:

(1)每一个神经单元都有一定量的能量,我们定义其能量值为该结点j的输出值Oj

(2)相邻层之间结点的连接有一个权重Wij,其值在[-1,1]之间;

(3)除输入层外,每一层的各个结点都有一个输入值,其值为上一层所有结点,按权重传递过来的能量之和加上偏置bias;

(4)除输入层外,每一层都有一个偏置值bias,其值在[0,1]之间;

(5)除输入层外,每个结点的输出值等该结点的输入值作非线性变换;

(6)我们认为输入层没有输入值,其输出值即为训练数据的属性,比如一条记录X=<(1,2,3),类别1>,那么输入层的三个结点的输出值分别为1,2,3。 因此输入层的结点个数一般等于训练数据的属性个数。


训练一个BP神经网络,实际上就是调整网络的权重和偏置这两个参数,BP神经网络的训练过程分两部分:

(1)前向传输,逐层波浪式的传递输出值;

(2)逆向反馈,反向逐层调整权重和偏置;


【15】BP神经网络算法

前向传输(Feed-Forward)


在训练网络之前,我们需要随机初始化权重和偏置,对每一个权重取[-1,1]的一个随机实数,每一个偏置取[0,1]的一个随机实数,之后就开始进行前向传输。


神经网络的训练是由多趟迭代完成的,每一趟迭代都使用训练集的所有记录,而每一次训练网络只使用一条记录,抽象的描述如下:

【15】BP神经网络算法


首先设置输入层的输出值,假设属性的个数为100,那我们就设置输入层的神经单元个数为100,输入层的结点Ni为记录第 i 维上的属性值xi 。对输入层的操作就这么简单,之后的每层就要复杂一些了,除输入层外,其他各层的输入值是上一层输入值按权重累加的结果值加上偏置,每个结点的输出值等该结点的输入值作如下变换:

【15】BP神经网络算法


前向传输的输出层的计算过程公式如下:

                    【15】BP神经网络算法

对隐藏层和输出层的每一个结点都按照如上图的方式计算输出值,就完成前向传播的过程,紧接着是进行逆向反馈。


【15】BP神经网络算法

前馈神经网络


前馈神经网络是多个感知器的组合,这些感知器以不同的方式产生连接,并由不同的激活函数控制激活,如下图示:

【15】BP神经网络算法


我们来认识下前馈神经网络:

(1)它包括输入层(input layer)、输出层(output layer)和一个或多个隐藏层(hidden layers)。上图的神经网络由3个单元的输入层,4个单元的隐藏层和2个单元的输出层组成。单元等于感知器。

(2)输入层的单元是隐藏层单元的输入,隐藏层单元的输出是输出层单元的输入。

(3)两个感知器之间的连接有一个权量ω。

(4)第t层的每个感知器与第t-1层的每个感知器相互关联。当然,你也可以设置权量为0,从而在实质上取消连接。

(5)在加工输入数据时,你将输入数据赋予输入层的每个单元,而隐藏层的每个单元是输入层每个单元的加权求和。也就是说,输入层的数据会被前向传播到隐藏层的每个单元。同理,隐藏层的输出作为输入会前向传播到输入层,计算得到最后的输出,即神经网络的输出。

(6)多个隐藏层的神经网络同理。



【15】BP神经网络算法

逆向反馈(BackPropagation)


逆向反馈从最后一层即输出层开始.


我们训练神经网络作分类的目的往往是,希望最后一层的输出能够描述数据记录的类别,比如对于一个二分类的问题,我们常常用两个神经单元作为输出层,如果输出层的第一个神经单元的输出值比第二个神经单元大,我们认为这个数据记录属于第一类,否则属于第二类。


在上面讲解前向传输时,整个网络的权重和偏置都是我们随机取,因此网络的输出肯定还不能描述记录的类别,因此需要调整网络的参数,即权重值ω和偏置值bias,而调整的依据就是网络的输出层的输出值与类别之间的差异,通过调整参数来缩小这个差异,这就是神经网络的优化目标。


【15】BP神经网络算法

BP算法


误差逆传播算法(err BackPropagation,简称BP)


下面我们来看看BP算法究竟是什么样。


给定训练集【15】BP神经网络算法【15】BP神经网络算法即输入示例由 d 个属性描述,输出 【15】BP神经网络算法维实值向量。


如下图所示,给出了一个拥有d个输入神经元、【15】BP神经网络算法个输出神经元、q个隐层神经元的多层前馈网络结构:

【15】BP神经网络算法


其中,输出层第 j个神经元的阈值用【15】BP神经网络算法表示,隐层第h个神经元的阈值用【15】BP神经网络算法表示。


输入层第 i 个神经元与隐层第h 个神经元之间的连接权为【15】BP神经网络算法,隐层第h个神经元与输出层第j个神经元之间的连接权为【15】BP神经网络算法


记隐层第h个神经元接收到的输入为【15】BP神经网络算法

输出层第j个神经元接收到的输入为【15】BP神经网络算法

,其中【15】BP神经网络算法为隐层第h个神经元的输出。假设隐层和输出层神经元都使用如下图中的Sigmoid函数。

【15】BP神经网络算法

对训练实例【15】BP神经网络算法,假定神经网络的输出为【15】BP神经网络算法,即【15】BP神经网络算法


则网络在【15】BP神经网络算法上的均方误差为:

            【15】BP神经网络算法

注:这里的1/2是为了后续求导的便利。


上图中共有(d+L+1)q+L个参数需确定:输入层到隐层的d*q个权值,隐层到输出层的q*L个权值,q个隐层神经元的阈值,L个输出层神经元的阈值。


BP算法是一个迭代学习算法,在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计,任意参数 v 的更新估计式为:

                    【15】BP神经网络算法

下面我们以上图中隐层到输出层的连接权【15】BP神经网络算法为例来进行推导:


BP算法基于梯度下降策略以目标的负梯度方向对参数进行调,对误差【15】BP神经网络算法,给定学习率【15】BP神经网络算法,有

                    【15】BP神经网络算法

我们注意到【15】BP神经网络算法先影响到第 j 个输出层神经元的输入值βj,再影响到其输出值【15】BP神经网络算法,然后影响到【15】BP神经网络算法,有

                 【15】BP神经网络算法

这是根据链式求导法则


根据βj的定义,显然有

                    【15】BP神经网络算法

由于Sigmoid函数的导数有一个很好的性质:

                    【15】BP神经网络算法

于是联立上述式子有:

                    【15】BP神经网络算法

进而,我们可以得到BP算法中关于【15】BP神经网络算法的更新公式:

                    【15】BP神经网络算法

类似的,我们根据已知的关系式,如下:

【15】BP神经网络算法

可得:

                    【15】BP神经网络算法

上式中:

              【15】BP神经网络算法

                    【15】BP神经网络算法

学习率η∈(0,1)控制着算法每一轮迭代中的更新步长,若太大则容易振荡,太小则收敛速度又会过慢,常设置η=0.1 。


【15】BP神经网络算法

BP误差逆传播算法流程


标准BP算法

【15】BP神经网络算法


标准BP算法工作流程解释如下:

对每个训练样例,BP算法执行如下操作:先将输入示例提供给输入层神经元,然后逐层将信号前传,直到产生输出层的结果;然后计算输出层的误差(第4-5行),再将误差逆向传播至隐层神经元(第6行),最后根据隐层神经元的误差来对连接权和阈值进行调整(第7行)。该迭代过程循环进行,直到达到某些停止条件为止,例如训练误差已达到一个很小的值。


需要注意的是,BP算法的目标是要最小化训练集D上的累积误差(训练集误差之和):

                【15】BP神经网络算法

但是我们上面介绍的“标准BP算法”每次仅针对一个训练样例更新连接权ω和阈值。也就是说,图5.8算法更新规则是基于单个的【15】BP神经网络算法推导而得。


累积BP算法(accumulated error backpropagation)

我们可以依据标准BP算法推导出累积误差最小化的更新规则,便得到了累积误差逆传播算法。


【15】BP神经网络算法

标准BP算法与累积BP算法的对比


标准BP算法每次更新只针对单个样例,参数更新得非常频繁,而且对不同样例进行更新的效果可能出现“抵消”现象。因此,为了达到同样的累积误差极小点,标准BP算法往往需要进行更多次数的迭代。


累积BP算法直接针对累积误差最小化,它在读取整个训练集D一遍后才对参数进行更新,其参数更新的频率低得多。但在很多任务中,累积误差下降到一定程度之后,进一步下降会非常缓慢,这时标准BP算法往往会更快获得较好的解,尤其是在训练集D非常大时更明显。


标准BP算法与累积BP算法的区别类似于随机梯度下降与标准梯度下降。


【15】BP神经网络算法

如何缓解BP网络的过拟合?


BP神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升,有两种策略常用来缓解BP网络的过拟合:


第一种策略是“早停”(early stopping)

将数据分成训练集和验证集,训练集用来计算梯度、更新连接权ω和阈值;验证集用来估计误差,若训练误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值;


第二种策略是“正则化”(regularization)

基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。仍令【15】BP神经网络算法表示第 k 个训练样例上的误差,ωi表示连接权和阈值,则误差目标函数变为:

       【15】BP神经网络算法

其中,λ∈(0,1)用于对经验误差与网络复杂度这两项进行折中,常通过交叉验证法来估计。


注:增加连接权与阈值平方和这一项后,训练过程将会偏好比较小的连接权和阈值,使网络输出更加“光滑”,从而对过拟合有所缓解。


【15】BP神经网络算法

如何跳出局部最小点,进而逼近全局最小点?


在现实任务中,人们常采用以下策略来试图“跳出”局部极小,从而进一步接近全局最小:


(1)以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数。


这相当于从多个不同的初始点开始搜索,这样就可能陷入不同的局部极小,从中进行选择有可能获得更接近全局最小的结果。


(2)使用“模拟退火”技术(simulated annealing)


模拟退火在每一步都以一定的概率接受比当前解更差的结果,从而有助于“跳出”局部极小。在每步迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低,从而保证算法稳定。


(3)使用随机梯度下降SGD


与标准梯度下降法精确计算梯度不同,随机梯度下降法在计算梯度时加入了随机因素。于是,即便陷入局部极小点,它计算出的梯度仍可能不为0,这样就有机会跳出局部极小继续搜索。


(4)使用遗传算法(genetic algorithms)


总之,上述跳出局部极小的技术大多是启发式,理论上尚缺乏保障。


【15】BP神经网络算法

训练终止条件


每一轮训练都使用数据集的所有记录,但什么时候停止呢?


停止条件有下面两种:

(1)设置最大迭代次数,比如使用数据集迭代100次后停止训练;

(2)计算训练集在网络上的预测准确率,达到一定门限值后停止训练;


训练BP神经网络的一些经验


讲一下自己训练神经网络的一点经验:


(1)学习速率不宜设置过大,一般小于0.1,开始我设置了0.85,准确率一直提不上去,很明显是陷入了局部最优解;

(2)输入数据应该归一化;


(3)尽量是数据记录随机分布,不要将数据集按记录排序。

假设数据集有10个类别,我们把数据集按类别排序,一条一条记录地训练神经网络,训练到后面,模型将只记得最近训练的类别而忘记了之前训练的类别;


(4)对于多分类问题,比如汉字识别问题,常用汉字就有7000多个,也就是说有7000个类别,如果我们将输出层设置为7000个结点,那计算量将非常大,并且参数过多而不容易收敛,这时候我们应该对类别进行编码,7000个汉字只需要13个二进制位即可表示,因此我们的输出成只需要设置13个结点即可。



参考文献

【1】周志华 · 机器学习 · 清华大学出版社 · 第五章

【2】BP神经网络算法与实践 http://blog.jobbole.com/90184/

【3】如何简单形象又简单有趣地讲解神经网络是什么 ? https://www.zhihu.com/question/22553761  舒小曼回复



以上是关于15BP神经网络算法的主要内容,如果未能解决你的问题,请参考以下文章

基于BP 神经网络算法的住院天数建模及预测

BP算法、BP神经网络、遗传算法、神经网络这四者之间的关系

bp神经网络算法介绍 bp神经网络算法简介

用Matlab算BP神经网络的具体算法?

神经网络——BP算法

bp算法在人工神经网络中的作用是啥?