感知器、线性单元

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了感知器、线性单元相关的知识,希望对你有一定的参考价值。

参考技术A

参考: 零基础入门深度学习(1) - 感知器 - 作业部落 Cmd Markdown 编辑阅读器 (zybuluo.com)
系列

(1)人工智能方法->机器学习
(2)机器学习算法->神经网络
神经网络:神经元+连接
其中:输入层+隐藏层+输出层
(3)隐藏层较多的神经网络->深度神经网络
即:深度学习:使用深层架构的机器学习方法
(4)优缺点?
=>1隐藏层+多神经元=多隐藏层+1神经元=拟合任何一个函数(任何线性分类or线性回归,但异或运算打咩),即节约资源
=> 需要大量数据+优化方法=好的深层网络

(1)输入(x1,x2,……) 权值(w1,w2,……) 偏置项b(w0)
(2)激活函数
(3)输出 y=f(w*x+b)

即:获得权重、偏执值
算法:初始=0,然后利用下面的感知器规则迭代的修改,直到训练完成

其中,

n:学习速率,常数。为了控制每一步调整权的幅度。
每次从训练数据中取出一个样本的输入向量,使用感知器计算其输出,再根据上面的规则来调整权重。每处理一个样本就调整一次权重。经过多轮迭代后(即全部的训练数据被反复处理多轮),就可以训练出感知器的权重,使之实现目标函数。

数据集线性可分+感知器规则=>感知器训练
数据集线性不可分+可导的线性函数=>感知器训练
此时的感知器叫做线性单元。

h(x):假设
(x1,x2,……):特征向量
w1,w2,……:每个向量对应的参数
b:参数
也可以令b=w0, x0=1

此时y就是输入特征的线性组合

1.监督方法
输入数据->模型计算(模型获得:已知一些样本+实际值,总结规律)->预测该数据的值
2.无监督方法
模型可以总结出特征的一些规律,但是无法知道其对应的答案。
很多时候,既有x又有y的训练样本是很少的,大部分样本都只有在x。比如在语音到文本(STT)的识别任务中,x是语音,y是这段语音对应的文本。我们很容易获取大量的语音录音,然而把语音一段一段切分好并标注上对应文字则是非常费力气的事情。这种情况下,为了弥补带标注样本的不足,我们可以用无监督学习方法先做一些聚类,让模型总结出哪些音节是相似的,然后再用少量的带标注的训练样本,告诉模型其中一些音节对应的文字。这样模型就可以把相似的音节都对应到相应文字上,完成模型的训练

从误差角度:

1.数学上:求E的最小值=>求导,得极值点
计算机上:求E的最小值=>依次试每个权重值,迭代求得最终的极值点
2.如何试?
向函数的梯度(上升方向最快的方向)的相反(即函数下降最快的方向)方向来修改
3.梯度下降的算法公式

1.每次更新的迭代,只计算一个样本。
2.由于样本的噪音和随机性,每次更新并不一定按照减少的方向。然而,虽然存在一定随机性,大量的更新总体上沿着减少的方向前进的,因此最后也能收敛到最小值附近。
3.SGD不仅仅效率高,而且随机性有时候反而是好事。今天的目标函数是一个『凸函数』,沿着梯度反方向就能找到全局唯一的最小值。然而对于非凸函数来说,存在许多局部最小值。随机性有助于我们逃离某些很糟糕的局部最小值,从而获得一个更好的模型。

机器学习算法:
1.模型,即h(x)
2.目标函数,参数值

神经网络

神经网络一般是由多层网络结构组成,每层都是有感知器组成,各层之间的连接方式多种多样,如全连接。感知器中最常用的是线性感知器,定义为:

 

对于一个感知器,其常用的误差定义为:

技术分享图片

其中D是训练样例集合,是训练样例 d 的目标输出,技术分享图片是线性单元对训练样例 d 的输出。定为模型参数的函数。【 公式源码:  E(\vec{w})=\frac{1}{2} \sum_ {d\in D}(t_{d}-o_{d})^{2}  】

 

以上是关于感知器、线性单元的主要内容,如果未能解决你的问题,请参考以下文章

Deep Learning之线性单元和梯度下降

神经网络 线性单元

神经网络之线性单元

深度学习——线性单元和梯度下降

深度学习入门系列之doc

神经网络:为啥感知器规则只适用于线性可分数据?