第七章：支持向量机

Posted 2021-04-26 Karen读书笔记

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第七章：支持向量机相关的知识，希望对你有一定的参考价值。

支持向量机（supported vector machine）是一种二分类模型，基本模型是定义在特征空间上的间隔最大的线性分类器，学习策略是间隔最大化，可形式化为求解凸二次规划的问题。

支持向量机的构建的由简至繁的模型：

1.线性可分支持向量机：硬间隔最大化

2.线性支持向量机：软间隔最大化

3.非线性支持向量机：核技巧和软间隔最大化

快速学习方法：序列最小最优化算法（SMO）

线性可分支持向量机与硬间隔最大化

线性可分支持向量机

考虑一个二分类问题，输入空间和输出空间为两个不同的空间。线性可分支持向量机和线性支持向量机两个空间的元素一一对应，将输入空间中的输入映射为特征空间中的特征向量。非线性支持向量机利用输入空间到特征空间的非线性映射将输入映射为特征向量。所以支持向量机的学习是在特征空间进行的。

学习的目标是在特征空间找到一个分离超平面，能将实例分到不同的类。当数据线性可分时，感知机利用误分类最小的策略，求得分离超平面，不过这时的解有无穷多个；线性可分支持向量机利用间隔最大化求最优分离超平面，这时的解是唯一的。

函数间隔和几何间隔

一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面w.x+b=0确定的情况下，|w.x+b|能够相对的表示x距离超平面的远近，而w.x+b的符号与类标记y的符号是否一致能够表示分类是否正确。所以可以用量y（w.x+b=0）来表示分类的正确性及确信度，这就是函数间隔的概念。

函数间隔可以表示分类预测的正确性和确信度，但是选择分离超平面时，只要成比例的改变w和b，例如2w和2b，超平面并没有改变，但是函数间隔却是原来的两倍。需要对分类超平面的法向量w加约束，如规范化(L2范数)，使得间隔是确定的，这时函数间隔为几何间隔。

函数间隔定义

对于给定的训练数据集T和超平面(w, b)，定义超平面关于样本点(xi, yi)的函数间隔为

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi, yi)的函数间隔之最小值

几何间隔定义

对于给定的训练数据集T和a超平面(w, b)，定义超平面关于样本点(xi, yi)的函数间隔为

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi, yi)的函数间隔之最小值

间隔最大化

对训练数据找到几何间隔最大的超平面意味着以充分大的确信度对训练数据分类，不仅将正负实例点分开，而且对最难分的实例点（离超平面近的点）也有足够大的确信度将它们分开。这样对未知的新实例点有很好的分类预测能力。

如何求得一个几何间隔最大的分离超平面?

几何间隔和函数间隔有如下关系

可把问题写成

函数间隔的取值并不影响最优化问题的解,不妨令函数间隔=1,并让最大化1/||w||等价为最小化||w||^2/2,问题变为凸二次规划问题

支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector）,支持向量是使约束条件成立的点，即

对yi=+1的正例点，支持向量在超平面

对yi=-1的负例点，支持向量在超平面

H1和H2上的点就是支持向量，H1和H2之间的距离称为间隔(margin)。间隔依赖于分离超平面的法向量w，等于2/||w||。H1和H2称为间隔边界. 在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。如果移动支持向量将改变所求的解；但是如果移动其他实例点，甚至去掉这些点，则解是不会改变的。由于支持向量在确定分离超平面中起决定性作用，所以将这种分类模型称为支持向量机。支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。

例题

正例点x1=(3,3), x2=(4,3),负例点x3=(1,1)，求最大间隔分离超平面

学习的对偶算法

这样做的优点是对偶问题往往更容易求解，二是自然引入核函数，进而推广到非线性分类问题。分类决策函数只依赖于输入x和训练样本输入的内积

例题

正例点x1=(3,3), x2=(4,3),负例点x3=(1,1)，用对偶算法求最大间隔分离超平面

线性支持向量机与软间隔最大化

上述线性可分支持向量机的学习（硬间隔最大化）是理想情形，现实问题中，数据往往是线性不可分的，即样本中出现噪声或者特异点。这时可以使用软间隔最大化。线性不可分意味着某些样本点不满足函数间隔大于等于1 的约束条件，为了解决这个问题，可以对每个样本点引入一个松弛变量，使函数间隔加上松弛变量大于等于1，约束条件就变为

同时为每一个松弛变量支付一个代价，目标函数则变为

其中C>0称为惩罚参数,C值越大对误分类的惩罚也越大.新目标函数包含了两层含义:使间隔尽量大,同时使误分类点的个数尽量小

学习问题变成如下凸二次规划问题:

支持向量

线性不可分的情况下，将对偶问题的解a*中对应于aj* > 0的样本点(xi，yi)的实例xi称为支持向量(软间隔的支持向量)。

若a*<C，则约束=0，支持向量xi恰好落在间隔边界上；

若a*=C，0<约束<1，则分类正确，xi在间隔边界与分离超平面之间;

若a*=C，约束=1，则xi在分离超平面上:

若a*=C，约束>1，则xi位于分离超平面误分一侧.

合页函数

线性支持向量机学习还有另外一种解释为合页损失函数(hinge loss ftmction)

最小化以下目标函数

目标函数的第1项是经验损失或经验风险

目标函数第二项使系数为λ的w的L2范数，是正则化项。合页损失函数是0-1损失函数的上界，由于0-1损失函数不是连续可导，优化由其构成的目标函数比较困难。图中虚线显示的是感知机的损失函数，这时当样本点被正确分类时，损失是0，否则损失是[-y(w.x+b)],相比之下合页损失函数不仅要求分类正确，而且确信度足够高时损失才是0。

非线性支持向量机与核函数

有时问题使非线性的，这时可以使用非线性支持机，主要特点是利用核技巧。

核技巧

给定训练数据集，若能通过一个超曲面将正负例分开，则称这个问题为非线性可分问题，非线性问题不好求解，通过非线性变换将非线性问题变换为线性问题。

输入空间的分界面：

通过非线性变换：

特征空间的分界面：

通过合适的变换ϕ，可以将非线性分类问题转化为线性分类问题。

核函数

设X是输入空间(欧式空间的子集或离散集合),H为特征空间(希尔伯特空间),一般是高维甚至无穷维的.如果存在一个从X到H的映射，使得对所有x,z属于X,函数K(x,z)满足条件

点乘代表内积,则称K(x,z)为核函数.

核技巧在支持向量机中的应用

核技巧的想法在学习与预测中只定义K(x,z)，而不显示的定义映射函数ϕ。直接寻找 ϕ并非易事，实际上也并不需要。因为SVM 需要的是两个样本的内积，准确的说，是新的特征空间中的样本点的内积可以用核函数K(xi,xj)=Ф(xi)`Ф(xj)来代替. 当映射函数是非线性函数时,学习到的含有核函数的支持向量机是非线性分类模型.此时对偶问题的目标函数变为

分类决策函数为

正定核

通常所说的核函数是指正定核函数.只要满足正定核的充要条件,那么给定的函数K(x,z)就是正定核函数.设K是定义在X*X上的对称函数,如果任意xi属于X,K(x,z)对应的Gram矩阵是半正定矩阵,则称K(x,z)是正定核.这一定义在构造核函数时很有用,但要验证一个具体函数是否为正定核函数并不容易,所以在实际问题中往往应用已有的核函数，核函数的有效性需要实验验证。

常用核函数

1.多项式核函数(polynomial kernel function):