反向传播神经网络入门

Posted 2020-10-01 xqnq2007

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了反向传播神经网络入门相关的知识，希望对你有一定的参考价值。

http://www.hankcs.com/ml/back-propagation-neural-network.html

单个神经元

神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。

神经元

神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：

技术分享

这其实就是一个单层感知机，其输入是由技术分享和+1组成的向量，其输出为，其中f是一个激活函数，模拟的是生物神经元在接受一定的刺激之后产生兴奋信号，否则刺激不够的话，神经元保持抑制状态这种现象。这种由一个阈值决定两个极端的函数有点像示性函数，然而这里采用的是Sigmoid函数，其优点是连续可导。

Sigmoid函数

常用的Sigmoid有两种——

单极性Sigmoid函数

技术分享

或者写成

技术分享

其图像如下

技术分享

双极性Sigmoid函数

技术分享

或者写成

技术分享

把第一个式子分子分母同时除以ez，令x=-2z就得到第二个式子了，换汤不换药。

其图像如下

技术分享

从它们两个的值域来看，两者名称里的极性应该指的是正负号。从导数来看，它们的导数都非常便于计算：

对于技术分享有，对于tanh，有。

视频作者Ryan还担心观众微积分学的不好，细心地给出了1/(1+e^-x)求导的过程：

技术分享

一旦知道了f(z)，就可以直接求f‘(z)，所以说很方便。

本Python实现使用的就是1/(1+e^-x)

def sigmoid(x):
"""
sigmoid 函数，1/(1+e^-x)
:param x:
:return:
"""
return 1.0/(1.0+math.exp(-x))
def dsigmoid(y):
"""
sigmoid 函数的导数
:param y:
:return:
"""
return y * (1 - y)

也可以使用双曲正切函数tanh

def sigmoid(x):
"""
sigmoid 函数，tanh
:param x:
:return:
"""
return math.tanh(x)

其导数对应于：

def dsigmoid(y):
"""
sigmoid 函数的导数
:param y:
:return:
"""
return 1.0 - y ** 2

神经网络模型

神经网络就是多个神经元的级联，上一级神经元的输出是下一级神经元的输入，而且信号在两级的两个神经元之间传播的时候需要乘上这两个神经元对应的权值。例如，下图就是一个简单的神经网络：

技术分享

其中，一共有一个输入层，一个隐藏层和一个输出层。输入层有3个输入节点，标注为+1的那个节点是偏置节点，偏置节点不接受输入，输出总是+1。

定义上标为层的标号，下标为节点的标号，则本神经网络模型的参数是：技术分享，其中是第l层的第j个节点与第l+1层第i个节点之间的连接参数（或称权值）；表示第l层第i个偏置节点。这些符号在接下来的前向传播将要用到。

前向传播

虽然标题是《（误差）后向传播神经网络入门》，但这并不意味着可以跳过前向传播的学习。因为如果后向传播对应训练的话，那么前向传播就对应预测（分类），并且训练的时候计算误差也要用到预测的输出值来计算误差。

定义技术分享为第l层第i个节点的激活值（输出值）。当l=1时，。前向传播的目的就是在给定模型参数的情况下，计算l=2,3,4…层的输出值，直到最后一层就得到最终的输出值。具体怎么算呢，以上图的神经网络模型为例：

技术分享

这没什么稀奇的，核心思想是这一层的输出乘上相应的权值加上偏置量代入激活函数等于下一层的输入，一句大白话，所谓中文伪码。

另外，追求好看的话可以把括号里面那个老长老长的加权和定义为一个参数：技术分享表示第l层第i个节点的输入加权和，比如。那么该节点的输出可以写作。

于是就得到一个好看的形式：

技术分享

在这个好看的形式下，前向传播可以简明扼要地表示为：

技术分享

在Python实现中，对应如下方法：

def runNN(self, inputs):
"""
前向传播进行分类
:param inputs:输入
:return:类别
"""
if len(inputs) != self.ni - 1:
print ‘incorrect number of inputs‘
for i in range(self.ni - 1):
self.ai[i] = inputs[i]
for j in range(self.nh):
sum = 0.0
for i in range(self.ni):
sum += ( self.ai[i] * self.wi[i][j] )
self.ah[j] = sigmoid(sum)
for k in range(self.no):
sum = 0.0
for j in range(self.nh):
sum += ( self.ah[j] * self.wo[j][k] )
self.ao[k] = sigmoid(sum)
return self.ao

其中，ai、ah、ao分别是输入层、隐藏层、输出层，而wi、wo则分别是输入层到隐藏层、隐藏层到输出层的权值矩阵。在本Python实现中，将偏置量一并放入了矩阵，这样进行线性代数运算就会方便一些。

后向传播

后向传播指的是在训练的时候，根据最终输出的误差来调整倒数第二层、倒数第三层……第一层的参数的过程。

符号定义

在Ryan的讲义中，符号定义与斯坦福前向传播讲义相似但略有不同：

技术分享：第l层第j个节点的输入。

技术分享：从第l-1层第i个节点到第l层第j个节点的权值。

技术分享：Sigmoid函数。

技术分享：第l层第j个节点的偏置。

技术分享：第l层第j个节点的输出。

技术分享：输出层第j个节点的目标值（Target value）。

输出层权值调整

给定训练集技术分享和模型输出（这里没有上标l是因为这里在讨论输出层，l是固定的），输出层的输出误差（或称损失函数吧）定义为：

技术分享

其实就是所有实例对应的误差的平方和的一半，训练的目标就是最小化该误差。怎么最小化呢？看损失函数对参数的导数技术分享呗。

将E的定义代入该导数：

技术分享

无关变量拿出来：

技术分享

看到这里大概明白为什么非要把误差定义为误差平方和的一半了吧，就是为了好看，数学家都是外貌协会的。

将技术分享 =（输出层的输出等于输入代入Sigmoid函数）这个关系代入有：

技术分享

对Sigmoid求导有：

技术分享

要开始耍小把戏了，由于输出层第k个节点的输入技术分享等于上一层第j个节点的输出乘上，即=，而上一层的输出是与到输出层的权值变量无关的，可以看做一个常量，是线性关系。所以对求权值变量的偏导数直接等于，也就是说：=()=。

然后将上面用过的技术分享 =代进去就得到最终的：

技术分享

为了表述方便将上式记作：

技术分享

其中：

技术分享

隐藏层权值调整

依然采用类似的方法求导，只不过求的是关于隐藏层和前一层的权值参数的偏导数：

技术分享

老样子：

技术分享

还是老样子：

技术分享

还是把Sigmoid弄进去：

技术分享

把技术分享 =代进去，并且将导数部分拆开：

技术分享

又要耍把戏了，输出层的输入等于上一层的输出乘以相应的权值，亦即技术分享 =，于是得到：

技术分享

把最后面的导数挪到前面去，接下来要对它动刀了：

技术分享

再次利用技术分享 =，这对j也成立，代进去：

技术分享

再次利用技术分享 =，j换成i，k换成j也成立，代进去：

技术分享

利用刚才定义的技术分享，最终得到：

技术分享

其中：

技术分享

我们还可以仿照技术分享的定义来定义一个，得到：

技术分享

其中

技术分享

偏置的调整

因为没有任何节点的输出流向偏置节点，所以偏置节点不存在上层节点到它所对应的权值参数，也就是说不存在关于权值变量的偏导数。虽然没有流入，但是偏置节点依然有输出（总是+1），该输出到下一层某个节点的时候还是会有权值的，对这个权值依然需要更新。

我们可以直接对偏置求导，发现：

技术分享

原视频中说?O/?θ=1，这是不对的，作者也在讲义中修正了这个错误，?O/?θ=O(1–O)。

然后再求技术分享，，后面的导数等于，代进去有

技术分享

其中，

技术分享

。

后向传播算法步骤

随机初始化参数，对输入利用前向传播计算输出。
对每个输出节点按照下式计算delta：
对每个隐藏节点按照下式计算delta：
计算梯度，并更新权值参数和偏置参数：。这里的是学习率，影响训练速度。

后向传播算法实现

def backPropagate(self, targets, N, M):
"""
后向传播算法
:param targets: 实例的类别
:param N: 本次学习率
:param M: 上次学习率
:return: 最终的误差平方和的一半
"""
# http://www.youtube.com/watch?v=aVId8KMsdUU&feature=BFa&list=LLldMCkmXl4j9_v0HeKdNcRA
# 计算输出层 deltas
# dE/dw[j][k] = (t[k] - ao[k]) * s‘( SUM( w[j][k]*ah[j] ) ) * ah[j]
output_deltas = [0.0] * self.no
for k in range(self.no):
error = targets[k] - self.ao[k]
output_deltas[k] = error * dsigmoid(self.ao[k])
# 更新输出层权值
for j in range(self.nh):
for k in range(self.no):
# output_deltas[k] * self.ah[j] 才是 dError/dweight[j][k]
change = output_deltas[k] * self.ah[j]
self.wo[j][k] += N * change + M * self.co[j][k]
self.co[j][k] = change
# 计算隐藏层 deltas
hidden_deltas = [0.0] * self.nh
for j in range(self.nh):
error = 0.0
for k in range(self.no):
error += output_deltas[k] * self.wo[j][k]
hidden_deltas[j] = error * dsigmoid(self.ah[j])
# 更新输入层权值
for i in range(self.ni):
for j in range(self.nh):
change = hidden_deltas[j] * self.ai[i]
# print ‘activation‘,self.ai[i],‘synapse‘,i,j,‘change‘,change
self.wi[i][j] += N * change + M * self.ci[i][j]
self.ci[i][j] = change
# 计算误差平方和
# 1/2 是为了好看，**2 是平方
error = 0.0
for k in range(len(targets)):
error = 0.5 * (targets[k] - self.ao[k]) ** 2
return error