机器学习算法总结——支持向量机

Posted 2020-11-20 jiangxinyang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习算法总结——支持向量机相关的知识，希望对你有一定的参考价值。

　　自学机器学习三个月，接触到了各种算法，然而很多知其然而不知其所以然，因此想对过往所学的知识做个总结，该系列的文章不会有过多的算法推导。

　　我们知道较早的分类模型——感知机（1957年）是二类分类的线性分类模型，也是后来神经网络和支持向量机的基础。支持向量机（Support vector machines）最早也是是一种二类分类模型，经过演进，现在成为了既能处理多元线性

和非线性的问题，也能处理回归问题。在深度学习风靡之前，应该算是最好的分类算法。但目前SVM的应用仍然很多，尤其是在小样本集上。

1、感知机模型

　　感知机模型是一种二分类的线性分类器，只能处理线性可分的问题，感知机的模型就是尝试找到一个超平面将数据集分开，在二维空间这个超平面就是一条直线，在三维空间就是一个平面。感知机的分类模型如下：

　　技术分享图片

　　sign函数是指示函数（当wx+b > 0，f(x) = +1；当wx+b < 0，f(x) = -1 ；感知机的超平面是wx+b = 0）

　　技术分享图片

　　将上述分段函数整合成 y(wx+b) > 0，则满足该式子的样本点即分类正确的点，不满足的即分类错误的点，我们的目标就是找到这样一组参数w，b 使得将训练集中的正类点和负类点分开。

　　技术分享图片

　　接下来定义我们的损失函数（损失函数是一种衡量损失和错误的程度的函数），我们可以通过定义分类错误的样本的个数来作为损失函数，但是这种损失函数不是参数w，b 的连续可导函数，因此不容易优化。我们知道对于误分类的点

有-y(wx+b) > 0，我们让所有的误分类点到超平面的距离和最小（注意：感知机的损失函数只针对误分类点，而不是整个训练集）：

　　技术分享图片

　　其中M是表示误分类的样本集合，当w，b 成倍数增大时，并不会改变我们的超平面，||w||的值也会相应的增大，因此令||w|| = 1 不会影响我们的结果。最终的感知机损失函数如下：

　技术分享图片

2、支持向量机

　　在感知机中，我们的目标是将训练集分开，只要是能将样本分开的超平面都满足我们的要求，而这样的超平面有很多。支持向量机本质上和感知机类似，然而要求却更加苛刻，我们知道在分类过程中，

那些远离超平面的点是安全的，而那些容易被误分类的点是离超平面很近的点，而支持向量机的思想就是要重点关注这些离超平面很近的点，一句话就是在分类正确的同时，让离超平面最近的点到超平面的间隔最大。

基于上面的感知机我们可以将我们的目标表示为：

　　技术分享图片

　　γ是离超平面最近的点的到超平面的几何间隔，将几何间隔用函数间隔替代，可以将式子表示为：

　　技术分享图片

　　γ(帽子)表示的是函数间隔，而函数间隔的取值是会随着w，b 成倍数变化而变化的，并不会影响最终的结果，因此令γ(帽子) = 1，则我们最终的问题可以表述为：

　　技术分享图片

　　在这里引出了支持向量机的第一个亮点：最大化间隔，最大化间隔能使得分类更加精确，且该最大间隔超平面是存在且唯一的。

　　上面的问题中的 1/2||w||²是凸函数，同时约束不等式是仿射函数，因此这是一个凸二次规划问题，根据凸优化理论，我们可以借助拉格朗日函数将我们的约束问题转化为无约束的问题来求解，我们的优化函数可以表达为：

　　技术分享图片

　　α_i 是拉格朗日乘子， α_i ≥ 0 i = 1, 2, 3, ....., n 。

　　根据拉格朗日的对偶性，可以将原始问题转化为对偶问题（只要对偶问题存在，对偶问题的最优化解就是原问题的最优化解，一般对偶问题都比原始问题更容易求解）极大极小问题：

　　先对w，b求导求极小问题，可以得到w，b的值：

　　技术分享图片

　　将求得的解代入到拉格朗日函数中，可以得到下面的优化函数（将代入后原本的求α 的极大问题转换成了极小问题）：

　　技术分享图片

　　因此只需要求得我们的α 的值就可以求得我们的w，b 的值（求α 的常用算法是SMO算法可以参考 https://www.cnblogs.com/pinard/p/6111471.html）假设最终求得的α 的值为α*，则w，b可以表述成：

　　技术分享图片

　　引入KTT条件：

　　技术分享图片

　　从KTT条件中可以看出，当y_i(w*x_i + b*) - 1 > 0 时，α_i* = 0；当 α_i* > 0 时，y_i(w*x_i + b*) - 1 = 0；

　　结合上面的w，b 表达式可以引出支持向量机的第二个亮点：w，b 参数只与满足 y_i(w*x_i + b*) - 1 = 0 的样本有关，而这些样本点就是离最大间隔超平面最近的点，我们将这些点称之为支持向量。因此很多时候支持向量在小样本集分类时也能表现的很好，也正是因为这个原因。（另外需注意：α 向量的个数是和训练集数量相等的，对与大的训练集，会导致所需要的参数数量增多，因此SVM在处理大的训练集时会比其他常见的机器学习算法要慢）

3、软间隔最大化

　　通常情况下的训练集中都会存在一些异常点，而这些异常点会导致训练集线性不可分，但除去这些异常点之后，剩下的样本就是线性可分的，而上面讲到的硬间隔最大化是无法处理线性不可分的问题，线性不可分意味着有些样本点的函数间隔是不能满足

大于等于 1 的约束条件。因此我们对每个样本（x_i, y_i）引入一个松弛变量 ξ_i，则我们的约束条件变为：

　　目标函数中加入对松弛变量的惩罚项，惩罚参数C > 0，目标优化函数变为：

　　因为整个求解的原始问题可以描述为：

　　技术分享图片

　　采用和之前同样的求解方法，利用拉格朗日将约束问题转化为无约束的问题，将原始问题转化为求极大极小问题的对偶问题，可以得到我们的最终结果：

　　技术分享图片

　　和第二部分中的结果唯一不同的是α_i 的取值范围多了一个上限C 值，对于软间隔最大化时，其支持向量描述要复杂一些，因为其支持向量可以在间隔边界上（如下图中的虚线），也可以在间隔边界和超平面之间，或者在分离超平面误分的一侧。

　　技术分享图片

　4、合页损失函数

　　合页损失函数又称为hinge 损失函数，其表达式如下：

　　技术分享图片

　　因此我们上面的优化问题可以描述为：

　　技术分享图片

　　对上述损失函数中的第一项可以理解为当样本分类正确且间隔大于1，即 y_i(wx_i + b) ≥ 1时，损失为0；而当 y_i(wx_i + b) < 1 时，损失为 1 - y_i(wx_i + b)，注意在这里即使样本分类正确，但是间隔小于1 的也会计入损失，这就是支持向量机的苛刻性。

　　下图是hinge损失函数和其他一些损失函数的比较：

　　技术分享图片