SVM详解

Posted 2023-04-02 AoDeLuo

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SVM详解相关的知识，希望对你有一定的参考价值。

文章目录

1.支持向量
2. 对偶问题
3. SVM优化
4. 软间隔
- 4.1 解决问题
- 4.2 优化目标及求解
5. 核函数
6. 优缺点
- 6.1 优点
- 6.2 缺点

参考地址： https://zhuanlan.zhihu.com/p/77750026

1.支持向量

1.1 线性可分

在二维空间上，两类点被一条直线完全分开叫做线性可分。

严格的数学定义是：
$D_0$ 和 $D_1$ 是 $n$ 维欧氏空间中的两个点集。如果存在 $n$ 维向量 $w$ 和实数 $b$ ，使得所有属于 $D_0$ 的点 $x_i$ 都有 $wx_i+b>0$ ，而对于所有属于 $D_1$ 的点 $x_j$ 则有 $wx_j+b<0$ ，则我们称 $D_0$ 和 $D_1$ 线性可分。

1.2 最大间隔超平面

从二维扩展到多维空间中时，将 $D_0$ 和 $D_1$ 完全正确地划分开的 $w x + b = 0$ 就成了一个超平面。为了使这个超平面更具鲁棒性，我们会去找最佳超平面，以最大间隔把两类样本分开的超平面，也称之为最大间隔超平面。

两类样本分别分割在该超平面的两侧；
两侧距离超平面最近的样本点到超平面的距离被最大化了。

1.3 支持向量

样本中距离超平面最近的一些点，这些点叫做支持向量。

1.4 SVM最优化问题

SVM想要的就是找到各类样本点到超平面的距离最远，也就是找到最大间隔超平面。任意超平面可以用下面这个线性方程来描述：

$w^T x+b=0$

二维空间点 $(x, y)$ 到直线 $A x + B y + C = 0$ 的距离公式是：

$\\frac|A x+B y+C|\\sqrtA^2+B^2$

扩展到 $n$ 维空间后，点 $x=(x_1,x_2...x_n)$ 到直线 $w^Tx+b=0$ 的距离为：

$\\frac\\left|w^T x+b\\right|\\|w\\|$

其中 $\\|w\\|=\\sqrtw_1^2+\\ldots w_n^2$ 。如图所示，根据支持向量的定义我们知道，支持向量到超平面的距离为 $d$ ，其他点到超平面的距离大于 $d$ 。

于是我们有这样的一个公式：

$\\left\\\\beginarrayl \\fracw^T x+b\\|w\\| \\geq d \\quad y=1 \\\\ \\fracw^T x+b\\|w\\| \\leq-d \\quad y=-1 \\endarray\\right.$

稍作转化可以得到：

$\\left\\\\beginarrayll \\fracw^T x+b\\|w\\| d \\geq 1 \\quad y & =1 \\\\ \\fracw^T x+b\\|w\\| d \\leq-1 & y=-1 \\endarray\\right.$

$∣∣ w ∣∣ d$ 是正数，我们暂且令它为1（之所以令它等于1，是为了方便推导和优化，且这样做对目标函数的优化没有影响），故：

$\\left\\\\beginarrayll w^T x+b \\geq 1 & y=1 \\\\ w^T x+b \\leq-1 & y=-1 \\endarray\\right.$

将两个方程合并，我们可以简写为：

SVM -支持向量机原理详解与实践之四

SVM -支持向量机原理详解与实践之四

SVM原理分析
1. SMO算法分析

SMO即Sequential minmal optimization, 是最快的二次规划的优化算法，特使对线性SVM和稀疏数据性能更优。在正式介绍SMO算法之前，首先要了解坐标上升法。

坐标上升法(Coordinate ascent)

坐标上升法(Coordinate Ascent)简单点说就是它每次通过更新函数中的一维，通过多次的迭代以达到优化函数的目的。

坐标上升法原理讲解

为了更加通用的表示算法的求解过程，我们将算法表示成：

（3.13-1）

坐标上升法的算法为：

这个算法中最为关键的地方就是内循环对于的求解，意思是固定除了之外的所有a（从i=1~m）,也就是说将除外的其他变量看成是常数，并且将W看做是关于的函数，那么直接对求导优化得到极大值，在上面算法的版本中，内循环优化变量的顺序是但是一个更高级的版本可能选择其它的顺序，例如我可以根据我们的期望来选择下一个变量来更新，并让W(a)有最大的增加。

当函数W在内循环中能够最快的达到最优，则坐标上升是一个有效的算法，下面是一个坐标上升的示意图：

上图中的椭圆形线代表我们需要优化问题的二次函数的等高线，变量数为2，起始坐标是(2,2)，途中的直线是迭代优化的路径，可以看到每一步都会相最优值前进一步，而且前进的路线都是平行与相应的坐标轴的，因为每次只优化一个变量。

C++算法编程实践

问题：求解函数的最大值。

解：回顾我们前面分析的求取函数最大值的关键是，求解每一个迭代变量的导数，当求解某一变量的导数的时候，其他的变量看做是常数：

VS2013控制台工程参考代码如下：

// Coordinate ascent.cpp : Defines the entry point for the console application.

#include "stdafx.h"

#include <iostream>

using namespace std;

#define f(x1,x2,x3) (-x1*x1-2*x2*x2-3*x3*x3+2*x1*x2+2*x1*x3-4*x2*x3+6)

int _tmain(int argc, _TCHAR* argv[])

{

double x1 = 1;

double x2 = 1;

double x3 = 1;

double f0 = f(x1, x2, x3);

double err = 1.0e-10;

while (true)

{

x1 = x2 + x3; //对x1求导的表达式，每次迭代后更新

x2 = 0.5*x1 - x3; //对x2求导的表达式，每次迭代后更新

x3 = 1.0 / 3 * x1 - 2.0 / 3 * x2; //对x3求导的表达式，每次迭代后更新

double ft = f(x1, x2, x3); //求函数值

if (abs(ft - f0)<err) //判断f是否收敛

{

break; //收敛即完成求解过程

}

f0 = ft; //更新f0

}

cout << "\\nmax{f(x1,x2,x3)}=" << f(x1, x2, x3) << endl;

cout << "取得最大值时的坐标：\\n(x1,x2,x3)=(" << x1 << "," << x2 << "," << x3 << ")" << endl;

system("pause");

return 0;

}

运行结果如下：

SMO算法详解

回到我们软间隔与正则化章节（还有最优间隔分类器），我们的对偶问题，就是通过固定拉格朗日乘子a，得到w和b的最优化表达式（关于a的表达式），所以最后我们只需要确认a，我们就可以最终确定w和b，但是在讨论SMO算法之前，我们并没有真正求解出。这一章我们就会通过介绍SMO算法对对偶问题最后需要解决的问题：