BP神经网络

Posted 2020-08-14 zbxzc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了BP神经网络相关的知识，希望对你有一定的参考价值。

BP神经网络模型拓扑结构包括输入层（input）、隐层(hide layer)和输出层(output layer)。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP网络模型处理信息的基本原理是：输入信号Xi通过中间节点（隐层点）作用于输出节点，经过非线形变换，产生输出信号Yk，网络训练的每个样本包括输入向量X和期望输出量t，网络输出值Y与期望输出值t之间的偏差，通过调整输入节点与隐层节点的联接强度取值W_ij和隐层节点与输出节点之间的联接强度T_jk以及阈值，使误差沿梯度方向下降，经过反复学习训练，确定与最小误差相对应的网络参数（权值和阈值），训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息，自行处理输出误差最小的经过非线形转换的信息。

算法步骤

第一步：创建网络

第二步：随机初始化

第三步：重复下述过程直到收敛：

（1）对N个样本，从k=1到N

正向过程计算：计算中间层各神经单元的激活值、输出值，输出层各单元的的激活值、输出值

反向过程：依次从输出层到中间层，中间层到输入层计算校正误差

（2）修正权值

样本预处理

样本输入应当归一化处理,数据归一化，就是将数据映射到[0,1]或[-1,1]区间或更小的区间,尽量使输入向量不相关,以确保各权值的收敛速度大致相同。

为什么要归一化处理？

<1>输入数据的单位不一样，有些数据的范围可能特别大，导致的结果是神经网络收敛慢、训练时间长。

<2>数据范围大的输入在模式分类中的作用可能会偏大，而数据范围小的输入作用就可能会偏小。

<3>由于神经网络输出层的激活函数的值域是有限制的，因此需要将网络训练的目标数据映射到激活函数的值域。例如神经网络的输出层若采用S形激活函数，由于S形函数的值域限制在(0,1)，也就是说神经网络的输出只能限制在(0,1)，所以训练数据的输出就要归一化到[0,1]区间。

<4>S形激活函数在(0,1)区间以外区域很平缓，区分度太小。例如S形函数f(X)在参数a=1时，f(100)与f(5)只相差0.0067。

归一化算法

　　一种简单而快速的归一化算法是线性转换算法。线性转换算法常见有两种形式：

<1>

y = ( x - min )/( max - min )

　　其中min为x的最小值，max为x的最大值，输入向量为x，归一化后的输出向量为y 。上式将数据归一化到 [ 0 , 1 ]区间，当激活函数采用S形函数时（值域为(0,1)）时这条式子适用。

<2>

y = 2 * ( x - min ) / ( max - min ) - 1

这条公式将数据归一化到 [ -1 , 1 ] 区间。当激活函数采用双极S形函数（值域为(-1,1)）时这条式子适用。

(3)Z-score标准化

Z-score标准化是基于原始数据的均值和标准差进行的数据标准化。将属性的原始数据通过Z-score标

准化成。Z-score标准化适用于属性的最大值或者最小值未知的情况，或有超出取值范围的离散数据的

情况。

其中为均值，为标准差。

Z-score标准化得到的结果是所有数据都聚集在0附近，方差为1。

机器学习中常见的几种归一化方法以及原因

关于随机初始化

既保证各神经元得输入值较小,工作在激励函数斜率变化最大的区域,也防止某些权值的绝对值多次学习后不合理的无限增长。一般取初始值为(-1,1)之间的随机数。
不同初值可能会对性能造成影响，而事先又难以预测较好地初值，所以干脆使用随机值。不能将所有的参数用相同的值作为初始值，那样的话所有的隐藏单元会得到与输入值有关的、相同的函数，随机初始化的目的是使对称失效。

学习率的选取

权值在每次循环学习中的变化受到学习率的影响较大。学习率小,学习时间长,收敛速度慢,不过能保证网络的误差值可以达到最终的极小点。系统的稳定性在学习率较大时可能会较差。通常我们倾向于选取较小的学习速率,其选取范围一般为 0.001 到 0.10之间以保证系统的稳定性。

采用变步长法根据输出误差大小自动调整学习因子，来减少迭代次数和加快收敛速度。

h =h +a×(E_p(n)- E_p(n-1))/ E_p(n)

a为调整步长，0~1之间取值

隐层节点数的优化

隐节点数的多少对网络性能的影响较大，当隐节点数太多时，会导致网络学习时间过长，甚至不能收敛；而当隐节点数过小时，网络的容错能力差。利用逐步回归分析法并进行参数的显著性检验来动态删除一些线形相关的隐节点，节点删除标准：当由该节点出发指向下一层节点的所有权值和阈值均落于死区（通常取±0.1、±0.05等区间）之中，则该节点可删除。最佳隐节点数L可参考下面公式计算：

L=(m+n)^1/2+c

m-输入节点数；n-输出节点数；c-介于1～10的常数。

算法推导

参数的求取

（1）正向传播时

中间层各神经元的激活值Sj

Wij是输入层到中间层的连接权，θj是中间层的阈值，θj在学习过程中也会不断被修正，p是中间层单元数。

中间层各神经元的输出值（采用S型函数）

输出层t个神经元的激活值Ot

Wjt是中间层到输出层的权值，θt是输出层各单元的阈值

输出层各神经元的输出值（采用S型函数）

（2）反向传播时

直接引用ufldl tutorial里的反向传导，讲得很清楚。

假设我们有一个固定样本集 $\\textstyle \\{ (x^{(1)}, y^{(1)}), \\ldots, (x^{(m)}, y^{(m)}) \\}$ ，它包含 $\\textstyle m$ 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例 $\\textstyle (x,y)$ ，其代价函数为：

$\\begin{align}J(W,b; x,y) = \\frac{1}{2} \\left\\| h_{W,b}(x) - y \\right\\|^2.\\end{align}$

这是一个（二分之一的）方差代价函数。给定一个包含 $\\textstyle m$ 个样例的数据集，我们可以定义整体代价函数为：

$\\begin{align}J(W,b)&= \\left[ \\frac{1}{m} \\sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \\right] + \\frac{\\lambda}{2} \\sum_{l=1}^{n_l-1} \\; \\sum_{i=1}^{s_l} \\; \\sum_{j=1}^{s_{l+1}} \\left( W^{(l)}_{ji} \\right)^2 \\\\&= \\left[ \\frac{1}{m} \\sum_{i=1}^m \\left( \\frac{1}{2} \\left\\| h_{W,b}(x^{(i)}) - y^{(i)} \\right\\|^2 \\right) \\right] + \\frac{\\lambda}{2} \\sum_{l=1}^{n_l-1} \\; \\sum_{i=1}^{s_l} \\; \\sum_{j=1}^{s_{l+1}} \\left( W^{(l)}_{ji} \\right)^2\\end{align}$

以上公式中的第一项 $\\textstyle J(W,b)$ 是一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。

[注：通常权重衰减的计算并不使用偏置项 $\\textstyle b^{(l)}_i$ ，比如我们在 $\\textstyle J(W, b)$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229（机器学习）课程，或者在YouTube上看过课程视频，你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。]

权重衰减参数 $\\textstyle \\lambda$ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义： $\\textstyle J(W,b;x,y)$ 是针对单个样例计算得到的方差代价函数； $\\textstyle J(W,b)$ 是整体样本代价函数，它包含权重衰减项。

以上的代价函数经常被用于分类和回归问题。在分类问题中，我们用 $\\textstyle y = 0$ 或 $\\textstyle 1$ ，来代表两种类型的标签（回想一下，这是因为 sigmoid激活函数的值域为 $\\textstyle [0,1]$ ；如果我们使用双曲正切型激活函数，那么应该选用 $\\textstyle -1$ 和 $\\textstyle +1$ 作为标签）。对于回归问题，我们首先要变换输出值域（译者注：也就是 $\\textstyle y$ ），以保证其范围为 $\\textstyle [0,1]$ （同样地，如果我们使用双曲正切型激活函数，要使输出值域为 $\\textstyle [-1,1]$ ）。

我们的目标是针对参数 $\\textstyle W$ 和 $\\textstyle b$ 来求其函数 $\\textstyle J(W,b)$ 的最小值。为了求解神经网络，我们需要将每一个参数 $\\textstyle W^{(l)}_{ij}$ 和 $\\textstyle b^{(l)}_i$ 初始化为一个很小的、接近零的随机值（比如说，使用正态分布 $\\textstyle {Normal}(0,\\epsilon^2)$ 生成的随机值，其中 $\\textstyle \\epsilon$ 设置为 $\\textstyle 0.01$ ），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 $\\textstyle J(W, b)$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为 $\\textstyle 0$ 。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有 $\\textstyle i$ ， $\\textstyle W^{(1)}_{ij}$ 都会取相同的值，那么对于任何输入 $\\textstyle x$ 都会有： $\\textstyle a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \\ldots$ ）。随机初始化的目的是使对称失效。

梯度下降法中每一次迭代都按照如下公式对参数 $\\textstyle W$ 和 $\\textstyle b$ 进行更新：

$\\begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - \\alpha \\frac{\\partial}{\\partial W_{ij}^{(l)}} J(W,b) \\\\b_{i}^{(l)} &= b_{i}^{(l)} - \\alpha \\frac{\\partial}{\\partial b_{i}^{(l)}} J(W,b)\\end{align}$

其中 $\\textstyle \\alpha$ 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。

我们首先来讲一下如何使用反向传播算法来计算 $\\textstyle \\frac{\\partial}{\\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\\textstyle \\frac{\\partial}{\\partial b_{i}^{(l)}} J(W,b; x, y)$ ，这两项是单个样例 $\\textstyle (x,y)$ 的代价函数 $\\textstyle J(W,b;x,y)$ 的偏导数。一旦我们求出该偏导数，就可以推导出整体代价函数 $\\textstyle J(W,b)$ 的偏导数：

$\\begin{align}\\frac{\\partial}{\\partial W_{ij}^{(l)}} J(W,b) &=\\left[ \\frac{1}{m} \\sum_{i=1}^m \\frac{\\partial}{\\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \\right] + \\lambda W_{ij}^{(l)} \\\\\\frac{\\partial}{\\partial b_{i}^{(l)}} J(W,b) &=\\frac{1}{m}\\sum_{i=1}^m \\frac{\\partial}{\\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)})\\end{align}$

以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于 $\\textstyle W$ 而不是 $\\textstyle b$ 。

反向传播算法的思路如下：给定一个样例 $\\textstyle (x,y)$ ，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $\\textstyle h_{W,b}(x)$ 的输出值。之后，针对第 $\\textstyle l$ 层的每一个节点 $\\textstyle i$ ，我们计算出其“残差” $\\textstyle \\delta^{(l)}_i$ ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $\\textstyle \\delta^{(n_l)}_i$ （第 $\\textstyle n_l$ 层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（译者注：第 $\\textstyle l+1$ 层节点）残差的加权平均值计算 $\\textstyle \\delta^{(l)}_i$ ，这些节点以 $\\textstyle a^{(l)}_i$ 作为输入。下面将给出反向传导算法的细节：

进行前馈传导计算，利用前向传导公式，得到 $\\textstyle L_2, L_3, \\ldots$ 直到输出层 $\\textstyle L_{n_l}$ 的激活值。
对于第 $\\textstyle n_l$ 层（输出层）的每个输出单元 $\\textstyle i$ ，我们根据以下公式计算残差：

$\\begin{align}\\delta^{(n_l)}_i= \\frac{\\partial}{\\partial z^{(n_l)}_i} \\;\\; \\frac{1}{2} \\left\\|y - h_{W,b}(x)\\right\\|^2 = - (y_i - a^{(n_l)}_i) \\cdot f'(z^{(n_l)}_i)\\end{align}$

[译者注：

$\\begin{align}\\delta^{(n_l)}_i &= \\frac{\\partial}{\\partial z^{n_l}_i}J(W,b;x,y) = \\frac{\\partial}{\\partial z^{n_l}_i}\\frac{1}{2} \\left\\|y - h_{W,b}(x)\\right\\|^2 \\\\ &= \\frac{\\partial}{\\partial z^{n_l}_i}\\frac{1}{2} \\sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \\frac{\\partial}{\\partial z^{n_l}_i}\\frac{1}{2} \\sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\\\ &= - (y_i - f(z_i^{(n_l)})) \\cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \\cdot f'(z^{(n_l)}_i)\\end{align}$

]
对 $\\textstyle l = n_l-1, n_l-2, n_l-3, \\ldots, 2$ 的各个层，第 $\\textstyle l$ 层的第 $\\textstyle i$ 个节点的残差计算方法如下：

$\\delta^{(l)}_i = \\left( \\sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \\delta^{(l+1)}_j \\right) f'(z^{(l)}_i)$

{译者注：

$\\begin{align}\\delta^{(n_l-1)}_i &=\\frac{\\partial}{\\partial z^{n_l-1}_i}J(W,b;x,y) = \\frac{\\partial}{\\partial z^{n_l-1}_i}\\frac{1}{2} \\left\\|y - h_{W,b}(x)\\right\\|^2 = \\frac{\\partial}{\\partial z^{n_l-1}_i}\\frac{1}{2} \\sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\\\&= \\frac{1}{2} \\sum_{j=1}^{S_{n_l}}\\frac{\\partial}{\\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \\frac{1}{2} \\sum_{j=1}^{S_{n_l}}\\frac{\\partial}{\\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\\\&= \\sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \\cdot \\frac{\\partial}{\\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \\sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \\cdot f'(z_j^{(n_l)}) \\cdot \\frac{\\partial z_j^{(n_l)}}{\\partial z_i^{(n_l-1)}} \\\\&= \\sum_{j=1}^{S_{n_l}} \\delta_j^{(n_l)} \\cdot \\frac{\\partial z_j^{(n_l)}}{\\partial z_i^{n_l-1}} = \\sum_{j=1}^{S_{n_l}} \\left(\\delta_j^{(n_l)} \\cdot \\frac{\\partial}{\\partial z_i^{n_l-1}}\\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \\cdot W_{jk}^{n_l-1}\\right) \\\\&= \\sum_{j=1}^{S_{n_l}} \\delta_j^{(n_l)} \\cdot W_{ji}^{n_l-1} \\cdot f'(z_i^{n_l-1}) = \\left(\\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\\delta_j^{(n_l)}\\right)f'(z_i^{n_l-1})\\end{align}$

将上式中的 $\\textstyle n_l-1$ 与 $\\textstyle n_l$ 的关系替换为 $\\textstyle l$ 与 $\\textstyle l+1$ 的关系，就可以得到：

$\\delta^{(l)}_i = \\left( \\sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \\delta^{(l+1)}_j \\right) f'(z^{(l)}_i)$

以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]
计算我们需要的偏导数，计算方法如下：

$\\begin{align}\\frac{\\partial}{\\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \\delta_i^{(l+1)} \\\\\\frac{\\partial}{\\partial b_{i}^{(l)}} J(W,b; x, y) &= \\delta_i^{(l+1)}.\\end{align}$

最后，我们用矩阵-向量表示法重写以上算法。我们使用“ $\\textstyle \\bullet$ ” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若 $\\textstyle a = b \\bullet c$ ，则 $\\textstyle a_i = b_ic_i$ 。在上一个教程中我们扩展了 $\\textstyle f(\\cdot)$ 的定义，使其包含向量运算，这里我们也对偏导数 $\\textstyle f'(\\cdot)$ 也做了同样的处理（于是又有 $\\textstyle f'([z_1, z_2, z_3]) = [f'(z_1), f'(z_2), f'(z_3)]$ ）。

那么，反向传播算法可表示为以下几个步骤：

进行前馈传导计算，利用前向传导公式，得到 $\\textstyle L_2, L_3, \\ldots$ 直到输出层 $\\textstyle L_{n_l}$ 的激活值。
对输出层（第 $\\textstyle n_l$ 层），计算：

$\\begin{align}\\delta^{(n_l)}= - (y - a^{(n_l)}) \\bullet f'(z^{(n_l)})\\end{align}$
对于 $\\textstyle l = n_l-1, n_l-2, n_l-3, \\ldots, 2$ 的各层，计算：

$\\begin{align}\\delta^{(l)} = \\left((W^{(l)})^T \\delta^{(l+1)}\\right) \\bullet f'(z^{(l)})\\end{align}$
计算最终需要的偏导数值：

$\\begin{align}\\nabla_{W^{(l)}} J(W,b;x,y) &= \\delta^{(l+1)} (a^{(l)})^T, \\\\\\nabla_{b^{(l)}} J(W,b;x,y) &= \\delta^{(l+1)}.\\end{align}$

实现中应注意：在以上的第2步和第3步中，我们需要为每一个 $\\textstyle i$ 值计算其 $\\textstyle f'(z^{(l)}_i)$ 。假设 $\\textstyle f(z)$ 是sigmoid函数，并且我们已经在前向传导运算中得到了 $\\textstyle a^{(l)}_i$ 。那么，使用我们早先推导出的 $\\textstyle f'(z)$ 表达式，就可以计算得到 $\\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$ 。

最后，我们将对梯度下降算法做个全面总结。在下面的伪代码中， $\\textstyle \\Delta W^{(l)}$ 是一个与矩阵 $\\textstyle W^{(l)}$ 维度相同的矩阵， $\\textstyle \\Delta b^{(l)}$ 是一个与 $\\textstyle b^{(l)}$ 维度相同的向量。注意这里“ $\\textstyle \\Delta W^{(l)}$ ”是一个矩阵，而不是“ $\\textstyle \\Delta$ 与 $\\textstyle W^{(l)}$ 相乘”。下面，我们实现批量梯度下降法中的一次迭代：

对于所有 $\\textstyle l$ ，令 $\\textstyle \\Delta W^{(l)} := 0$ , $\\textstyle \\Delta b^{(l)} := 0$ （设置为全零矩阵或全零向量）
对于 $\\textstyle i = 1$ 到 $\\textstyle m$ ，
1. 使用反向传播算法计算 $\\textstyle \\nabla_{W^{(l)}} J(W,b;x,y)$ 和 $\\textstyle \\nabla_{b^{(l)}} J(W,b;x,y)$ 。
2. 计算 $\\textstyle \\Delta W^{(l)} := \\Delta W^{(l)} + \\nabla_{W^{(l)}} J(W,b;x,y)$ 。
3. 计算 $\\textstyle \\Delta b^{(l)} := \\Delta b^{(l)} + \\nabla_{b^{(l)}} J(W,b;x,y)$ 。
更新权重参数：

$\\begin{align}W^{(l)} &= W^{(l)} - \\alpha \\left[ \\left(\\frac{1}{m} \\Delta W^{(l)} \\right) + \\lambda W^{(l)}\\right] \\\\b^{(l)} &= b^{(l)} - \\alpha \\left[\\frac{1}{m} \\Delta b^{(l)}\\right]\\end{align}$