感知器与梯度下降

Posted 2020-08-09 CoderYeong

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了感知器与梯度下降相关的知识，希望对你有一定的参考价值。

声明：本文由Ronny发表在http://www.cnblogs.com/ronny/p/ann_01.html ，如需转载请注明出处

一、前言

1，什么是神经网络？

人工神经网络(ANN)又称神经网络(NN)，它是一种受生物学启发而产生的一种模拟人脑的学习系统。它通过相互连结的结点构成一个复杂的网络结构，每一个结点都具有多个输入和一个输出，并且该结点与其他结点以一个权重因子相连在一起。通俗来说，神经网络是一种学习器，给它一组输入，它会得到一组输出，神经网络里的结点相互连结决定了输入的数据在里面经过怎样的计算。我们可以通过大量的输入，让神经网络调整它自身的连接情况从而总是能够得到我们预期的输出。

2，神经网络能干什么吗？

神经网络对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法，现在已经成功应用到很多领域，例如视觉场景分析、手写字符识别、语音识别、人脸识别等。它可以适用在任何实例是“属性-值”

现代计算机识别的过程通常都可以描述为这样一个过程：对象

本篇文章将是人工神经网络这个主题的第一篇文章，主要从最简单的神经网络结构入手，介绍一些基本算法原理。后面会陆续涉及到多层神经网络的原理及其C++实现，同时随着深度学习的提出，卷积神经网络也渐渐走进人们的视野，它在图像识别上表现非常不错，这个主题也将在后面的文章中有全面的介绍。

二、感知器

一个感知器的结构图如下：

稍后我们会知道感知器实际上是神经网络结构中的一个神经元，那么一个感知器就够成了最简单的神经网络系统(虽然还算不上是网络)。感知器是以一组实数向量作为输入，计算这些输入的线性组合，如果结果大于某个阈值就输出1，否则就输出-1。如果我们用公式表达，则假设输入为

o (x) = {1 - 1 i f w 0 + x 1 w 1 + \dots + x n w n > 0

我们把

我们可以把感知器看成

针对于我们在数据分类的应用时，就是将我们提供的所有样本数据分为2类，对于其中一类样本，感知器总是输出1，而另一类总是输出-1。但是对于任意样本总能找出这个超平面吗，或者是说是找出一组这样的权值向量吗？答案显然是否定的，只有线性可分的空间可以找到超平面，或者说可以找出一组权值。

那么我们怎么利用感知器呢？或者说我们的目标是什么？

我们希望找到一组这样的权值，对于我们输入的每一组向量，总是能够得到一个我们期望的值。但是上面的感知器功能显然不够，它只能得到2个结果，即1和-1。

在实际的模式分类的应用中，样本空间往往并不是线性的，即使是2维数据的集合也可能不是线性可分的，比如下面这张图：

而用这样的感知器结点来构建神经网络显然是不行的，因为线性单元连结在一起得到的仍然是线性单元，我们需要的是一种非线性映射，于是就产生了激活函数这个概念。激活函数是一种非线性函数同时是可微函数（可以求导数）,为什么要可微呢，因为我们需要知道权重是怎么影响最终输出的，我们要根据输出来调节那些权重向量，也就是后面讲到的梯度下降法则。

激活函数有很多种，关于激活函数的种类这里不准备介绍太多，只要知道我们选用的是S型激活函数，它将整个一维空间映射到[0,1]或[-1,1]。下面是S型