感知机原理小结

Posted 2020-09-08 郑兴鹏

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了感知机原理小结相关的知识，希望对你有一定的参考价值。

感知机可以说是最古老的分类方法之一了，在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强，但是它的原理却值得好好研究。因为研究透了感知机模型，学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型，再学习神经网络，深度学习，也是一个很好的起点。这里对感知机的原理做一个小结。

1. 感知机模型

　　　　感知机的思想很简单，比如我们在一个平台上有很多的男孩女孩，感知机的模型就是尝试找到一条直线，能够把所有的男孩和女孩隔离开。放到三维空间或者更高维的空间，感知机的模型就是尝试找到一个超平面，能够把所有的二元类别隔离开。当然你会问，如果我们找不到这么一条直线的话怎么办？找不到的话那就意味着类别线性不可分，也就意味着感知机模型不适合你的数据的分类。使用感知机一个最大的前提，就是数据是线性可分的。这严重限制了感知机的使用场景。它的分类竞争对手在面对不可分的情况时，比如支持向量机可以通过核技巧来让数据在高维可分，神经网络可以通过激活函数和增加隐藏层来让数据可分。

　　　　用数学的语言来说，如果我们有m个样本，每个样本对应于n维特征和一个二元类别输出，如下：

　　　　我们的目标是找到这样一个超平面，即：

　　　　让其中一种类别的样本都满足

　　　　为了简化这个超平面的写法，我们增加一个特征

　　　　而感知机的模型可以定义为：

s i g n (x) = {- 1 1 x < 0 x \geq 0

2. 感知机模型损失函数

　　　　为了后面便于定义损失函数，我们将满足

　　　　由于

　　　　其中

　　　　我们假设所有误分类的点的集合为M，则所有误分类的样本到超平面的距离之和为：

　　　　这样我们就得到了初步的感知机模型的损失函数。

　　　　我们研究可以发现，分子和分母都含有

　　　　题外话，如果大家了解过支持向量机，就发现支持向量机采用的是固定分子为1，然后求

3. 感知机模型损失函数的优化方法

　　　　上一节我们讲到了感知机的损失函数：

　　　　但是用普通的基于所有样本的梯度和的均值的批量梯度下降法（BGD）是行不通的，原因在于我们的损失函数里面有限定，只有误分类的M集合里面的样本才能参与损失函数的优化。所以我们不能用最普通的批量梯度下降,只能采用随机梯度下降（SGD）或者小批量梯度下降（MBGD）。如果对这几种梯度下降法的区别不了解，可以参考我的另一篇文章梯度下降（Gradient Descent）小结。

　　　　感知机模型选择的是采用随机梯度下降，这意味着我们每次仅仅需要使用一个误分类的点来更新梯度。

　　　　损失函数基于

　　　　由于我们采用随机梯度下降，所以每次仅仅采用一个误分类的样本来计算梯度，假设采用第i个样本来更新梯度，则简化后的

　　　　其中

3. 感知机模型的算法

　　　　前两节我们谈到了感知机模型，对应的损失函数和优化方法。这里我们就对感知机模型基于随机梯度下降来求

　　　　算法的输入为m个样本，每个样本对应于n维特征和一个二元类别输出1或者-1，如下：