支持向量机

Posted 2020-10-12 Aaron12

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了支持向量机相关的知识，希望对你有一定的参考价值。

0.相关概念

分类器：分类器就是给定一个样本的数据，判定这个样本属于哪个类别的算法。例如在股票涨跌预测中，我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的，那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。

特征：在分类问题中，输入到分类器中的数据叫做特征。以上面的股票涨跌预测问题为例，特征就是前一天的交易量和收盘价。

线性分类器：线性分类器是分类器中的一种，就是判定分类结果的根据是通过特征的线性组合得到的，不能通过特征的非线性运算结果作为判定根据。还以上面的股票涨跌预测问题为例，判断的依据只能是前一天的交易量和收盘价的线性组合，不能将交易量和收盘价进行开方，平方等运算。

1.线性分类器起源

在实际应用中，我们往往遇到这样的问题：给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。技术分享怎么分呢？把整个空间劈成两半呗（让我想到了盘古）。用二维空间举个例子，如上图所示，我们用一条直线把空间切割开来，直线左边的点属于类别-1（用三角表示），直线右边的点属于类别1（用方块表示）。

如果用数学语言呢，就是这样的：空间是由X_1和X_2组成的二维空间，直线的方程是

在二维空间中，用一条直线就把空间分割开了：技术分享在三维空间中呢，需要用一个平面把空间切成两半，对应的方程是

W T X + b = 0

感知器模型和逻辑回归：

常见的线性分类器有感知器模型和逻辑回归。上一节举出的例子是感知器模型，直接给你分好类。有时候，我们除了要知道分类器对于新数据的分类结果，还希望知道分类器对于这次分类的成功概率。逻辑回归就可以做这件事情。

逻辑回归（虽然称作回归，但是不是一个回归方法，却是一个分类算法。很蛋疼的说）将线性分类器的超平面方程计算结果通过logistic函数从正负无穷映射到0到1。这样，映射的结果就可以认为是分类器将x判定为类别1的概率，从而指导后面的学习过程。

举个例子，看天气预报，用感知器的天气预报只会告诉你明天要下雨（y=1），或者明天不下雨（y=-1）；而用了逻辑回归的天气预报就能告诉你明天有90%的概率要下雨，10%的概率不下雨。

逻辑回归的公式是

本文深度为“了解”，如果想知道更多的感知器模型和逻辑回归细节，可以参照《统计学习方法》等机器学习的相关书籍。或者持续关注我们的量化课堂，未来会深度探讨。

2.支持向量机 VS 感知器和逻辑回归

根据上面的讨论，我们知道了在多维空间下，用一个超平面就把数据分为了两类。这个超平面我们叫它为分离超平面。但是这个分离超平面可以有很多个，那么用哪个呢？技术分享上图中，对于目前的训练数据，绿色和黑色的直线（二维特征空间，分离超平面就是直线啦）都可以很可以很好的进行分类。但是，通过已知数据建立分离超平面的目的，是为了对于未知数据进行分类的。在下图中，蓝色的星星图案就是新加入的真实数据。技术分享这时候我们就可以看出不同的分离超平面的选择对于分类效果的影响了。有的绿线会将三个点都划归蓝色圆圈，有的绿线会将三个点都划归红色正方形。

那么绿线和黑线留下谁？我们认为，已有的训练数据中，每个元素距离分离超平面都有一个距离。在添加超平面的时候，尽可能的使最靠近分离超平面的那个元素与超平面的距离变大。这样，加入新的数据的时候，分的准的概率会最大化。感知器模型和逻辑回归都不能很好的完成这个工作，该我们的支持向量机（support vector machine，SVM）出场了。

首先，SVM将函数间隔（

可以看出，大部分数据对于分离超平面都没有作用，能决定分离超平面的，只是已知的训练数据中很小的一部分。这与逻辑回归有非常大的区别。上图中，决定黑色的这条最优分离超平面的数据只有下方的两个红色的数据点和上方的一个蓝色的数据点。这些对于分离超平面有着非常强大影响的数据点也被称为支持向量（看没看到，这就是传说中的支持向量啦，原来如此）。

3.引入黑科技-核函数

上面说的都是在原始特征的维度上，能直接找到一条分离超平面将数据完美的分成两类的情况。但如果找不到呢？

比如，原始的输入向量是一维的，

继续刚才那个数轴。技术分享如果我们将原始的一维特征空间映射到二维特征空间

（为啥要返回数据间的内积结果涉及到比较高深的内容，在此先略过，可以在《统计学习方法》等更加专业的资料中自行阅读，未来量化课堂会产生这部分的内容。）

4.异常值的处理-松弛变量的引入

你以为就结束了吗？并没有。

在原始空间线性不可分时，可以映射到高维空间之后，转换为线性可分的问题。但是万一映射之后还是不能线性可分，该如何处理呢？

再比如正常的数据中混入了异常数据，很有可能会使应该的最佳分离超平面移位，或者直接使数据变得线性不可分。又怎么办捏？技术分享上图中用黑色的圆圈圈起来的就是一个异常值，这个异常值的存在，使得分离超平面发生了移位。这时候就该引入松弛变量了。松弛变量可以允许某些数据点在不满足分离超平面两边的类别要求，从而使得某些严格线性不可分的数据集也可以使用SVM进行分类了。

由于篇幅有限，这部分内容只是为了完整性，不做深入讨论。欢迎关注量化课堂。

5.SVM的具体使用-sklearn

SVM的基本原理基本上已经说的差不多了，下面咱们就来看看SVM在实际应用该如何使用了。幸运的是，在python下面，sklearn提供了一个非常好用的机器学习算法，我们调用相关的包就好啦。

在下面的这个例子中，特征是通过收盘价数据计算的SMA，WMA，MOM指标，训练样本的特征是从2007-1-4到2016-6-2中每一天的之前的交易日的收盘价计算的SMA，WMA，MOM指标，训练样本的标签就是2007-1-4日到2016-6-2中每一天的涨跌情况，涨了就是True，跌了就是False，测试样本是2016-6-3日的三个指标以及涨跌情况。我们可以判定之后判断结果是正确还是错误，如果通过SVM判断的结果和当天的涨跌情况相符，则输出True，如果判断结果和当天的涨跌情况不符，则输出False。

我这次的预测结果是输出了True哦。

以上是关于支持向量机的主要内容，如果未能解决你的问题，请参考以下文章