一步一步教你反向传播的样例

Posted 2020-09-29 blfbuaa

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一步一步教你反向传播的样例相关的知识，希望对你有一定的参考价值。

背景

反向传播(Backpropagation)是训练神经网络最通用的方法之中的一个，网上有很多文章尝试解释反向传播是如何工作的，可是非常少有包括真实数字的样例，这篇博文尝试通过离散的数据解释它是如何工作的。

Python实现的反向传播

你能使用Python来实现反向传播，我以前在this Github repo上实现了反向传播算法。

反向传播的可视化

显示神经网络学习时相互作用的可视化，检查我的Neural Network visualization。

另外的资源

假设你发现这个教程对你实用而且想继续学习神经网络以及它的应用。我强烈建议你看Adrian Rosebrock优秀的教程 Getting Started with Deep Learning and Python。

概述

对于这个教程。我们将使用2个输入神经元、2个隐含层神经元以及2个输出层神经元组成一个神经网络，另外，隐含层和输出层神经元各包括一个偏差。

这是基本结构：
技术分享

目的让神经网络工作，我们对权重、偏差和训练的输入/输出设置一个初始值：
技术分享

反向传播的目的是优化权重。以便于让神经网络学习如何正确的把随意的输入映射到输出中。

这篇教程的剩余部分我们将要和单一的训练集工作：输入0.05和0.10，我们想要神经网络输出0.01和0.99。

前向反馈

为了開始，当前给定权重和偏差以及输入值0.05和0.10，神经网络预測结果是什么，我们须要把输入值向前传给网络。

我们知道所有的输入值传到每一个隐含层神经元中。使用激活函数挤压所有的输入值(在这里。我们使用logistic函数)，对输出层神经元反复这一过程。

计算 $h_1$ 的输入：
技术分享

然后我们利用logistic函数把 $net_{h1}$ 挤压到 $h_1$ 的输出：
技术分享

对 $h_2$ 进行同样的操作：
$out_{h2} = 0.596884378$

对输出层神经元反复操作，使用隐含层神经元的输出作为输出层神经元的输入。

这是 $o_1$ 的输出：
技术分享

对 $o_2$ 进行同样操作：
$out_{o2} = 0.772928465$

计算总体误差

利用平方和误差，我们能计算每一个输出层神经元的误差：
技术分享

比如，目标输出 $o_1$ 是0.01，可是神经网络输出是0.75136507，因此误差是：
技术分享

对 $o_2$ 反复这个过程：
$E_{o2} = 0.023560026$

神经网络总体误差：
技术分享

反向传播

反向传播的目的是更新网络中每一个权重。以便他们真实的输出值是接近目标输出，从而最小化输出层神经元的误差。

输出层

考虑 $w_5$ 。我们想要知道 $w_5$ 如何影响总体误差，即 $\dfrac{{\alpha}E_{total} {}}{\alpha{w_5}}$

应用链式规则：
技术分享

可视化我们正在做的：
技术分享

我们须要理解这个公式的每一步。

首先，output如何改变总体误差？
技术分享

下一步。net input如何改变 $o_1$ 输出？
logistic函数的偏导数是输出乘以1减输出：
技术分享

最后， $w_5$ 如何改变 $o_1$ 的net input？
技术分享

把它们结合起来：
技术分享

你经常能看到delta rule的结合形式：
技术分享
我们利用 $\dfrac{{\alpha}E_{total} {}}{\alpha{out_{o1}}}$ 和 $\dfrac{{\alpha}out_{o1} {}}{\alpha{net_{o1}}}$ 来重写 $\dfrac{{\alpha}E_{total} {}}{\alpha{net_{o1}}}$ ，我们使用这个又一次上面的表达式：

因此：
技术分享

为了降低误差，我们从当前权重减去这个值(乘以一个学习率，设置成0.5)：
技术分享

我们能反复这个过程得到新的权重 $w_6$ ， $w_7$ 和 $w_8$ ：
技术分享

当我们继续以下的反向传输算法时，我们使用初始权重，而不是更新过的权重。

隐含层

下一步，我们将继续向后计算 $w_1$ 。 $w_2$ ， $w_3$ 和 $w_4$ 新值，这是我们须要理解的：
技术分享

可视化：
技术分享

我们将要对隐含层神经元使用类似的过程。可是略微不同的是。每一个隐含层神经元的输出贡献到多个输出层神经元中。我们知道 $out_{h1}$ 影响 $out_{o1}$ 和 $out_{o2}$ ，因此 $\dfrac{{\alpha}E_{total} {}}{\alpha{out_{h1}}}$ 须要考虑两个输出层神经元的影响：

$\dfrac{{\alpha}E_{total} {}}{\alpha{out_{h1}}} = \dfrac{{\alpha}E_{o1} {}}{\alpha{out_{h1}}} + \dfrac{{\alpha}E_{o2} {}}{\alpha{out_{h1}}}$

先计算 $\dfrac{{\alpha}E_{o1} {}}{\alpha{out_{h1}}}$ :

$\dfrac{{\alpha}E_{o1} {}}{\alpha{out_{h1}}} = \dfrac{{\alpha}E_{o1} {}}{\alpha{net_{o1}}} * \dfrac{{\alpha}net_{o1} {}}{\alpha{out_{h1}}}$

使用稍早前计算的值来计算 $\dfrac{{\alpha}E_{o1} {}}{\alpha{net_{o1}}}$ ：

$\dfrac{{\alpha}E_{o1} {}}{\alpha{net_{o1}}} = \dfrac{{\alpha}E_{o1} {}}{\alpha{out_{o1}}} * \dfrac{{\alpha}out_{o1} {}}{\alpha{net_{o1}}} = 0.74136507 * 0.186815602$

$\dfrac{{\alpha}net_{o1} {}}{\alpha{out_{h1}}}$ 等于 $w_5$ :

$net_{o1} = w_5*out_{h1} + w_6 * out_{h2} + b_2 * 1$

$\dfrac{{\alpha}net_{o1} {}}{\alpha{out_{h1}}} = w_5 = 0.40$

合在一起：
$\dfrac{{\alpha}E_{o1} {}}{\alpha{out_{h1}}} = \dfrac{{\alpha}E_{o1} {}}{\alpha{net_{o1}}} * \dfrac{{\alpha}net_{o1} {}}{\alpha{out_{h1}}} = 0.138498562 * 0.40 = 0.055399425$

对 $\dfrac{{\alpha}E_{o2} {}}{\alpha{out_{o1}}}$ 做同样的处理：

$\dfrac{{\alpha}E_{o2} {}}{\alpha{out_{h1}}} = -0.019049119$

因此：

技术分享

如今我们有 $\dfrac{{\alpha}E_{total} {}}{\alpha{out_{h1}}}$ ，我们还须要计算 $\dfrac{{\alpha}out_{h1} {}}{\alpha{net_{h1}}}$ ，然后对每一个权重计算 $\dfrac{{\alpha}net_{h1} {}}{\alpha{w}}$ ：

技术分享

我们计算 $h_1$ 对 $w_1$ 的偏导数：

技术分享

把它们结合起来：
技术分享

你也能够例如以下写：

技术分享

如今我们能更新 $w_1$ ：

技术分享

对 $w_2$ 。 $w_3$ 和 $w_4$ 反复上面过程：

技术分享

最后，我们更新所有权重。当我们把输入0.05和0.1向前反馈。神经网络的误差为0.298371109，在一次反向传播后，总体误差降到0.291027924，它看似不多。可是反复10000次之后，误差大幅下降到0.000035085，在这之后，我们把输入0.05和0.1向前反馈，那么输出的2个神经元生成0.015912196(vs 目标0.01)和0.984065734(vs 目标0.99)。

原文链接：A Step by Step Backpropagation Example

以上是关于一步一步教你反向传播的样例的主要内容，如果未能解决你的问题，请参考以下文章