SVM支持向量机
Posted bigdata-stone
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SVM支持向量机相关的知识,希望对你有一定的参考价值。
一、SVM模型
1.函数间隔与几何间隔
(1)公式化问题。
分类模型:
函数间隔:前面乘以y(i),是为了保持数值为正值,数据点到直线的距离。函数间隔最好的是几何间隔最大的那个。最好的分类线就是几何间隔最大的分类线
我们要找到最好的直线,对每个数据点都计算出函数间隔,对于一个直线而言可以计算出最小函数间隔,这个最小的函数间隔可以判断直线和数据集的拟合程度。
只要成倍的增大w和b值,函数间隔就能无限增大。-1和1的二阶范数是根号2
几何间隔:
初始函数表达式:最大化集合间隔,使得所有的数据点都大于等于这个集合间隔,||w||二阶范数就是欧氏距离,两点相减然后求二阶范数,就是法向量的求法。
非凸性约束,容易达到局部最优。
核心思想:我们要找到一个分类面,使得在线性可分的时候,这条直线是最好的
点到直线的距离可以理解为置信度,当点离分类界面越远的时候,
那么点对分类的置信度比较高,当点比较接近直线边缘的时候,点对分类的置信度比较低。
简化步骤1:
简化步骤2:调整w和b,将r变为1,所以索性直接变为1
最终问题:
线性约束下优化二次函数
有数学方法可以 解决这个问题,可以引入对偶函数
2.最优间隔分类器
3.拉格朗日求解
(1)最小化一个f(w),
(2)构造拉个朗日函数
(3)求解:
(4)有不等式约束的时候:
(5)拉格朗日方程:
(6)极小极大
(7)广义拉个朗日函数
对偶问题与原始问题的等价性:
约束不等式g都是凸函数:线性函数都是凸函数
约束等式h都是仿射函数:仿射和线性等价,除了允许截距b
不等式严格执行:必有g不等式是小于0的
4.最优间隔分类器求解
最有间隔分类器求解
5.SMO算法
坐标上升法:
二维坐标上升法:
6.核技法
7.软间隔分类器
8.合页损失函数
9.多分类
二、SVM实战文本分类
以上是关于SVM支持向量机的主要内容,如果未能解决你的问题,请参考以下文章
支持向量机(SVM):超平面及最大间隔化支持向量机的数学模型软间隔与硬间隔线性可分支持向量机线性支持向量机非线性支持向量机核函数核函数选择SMO算法SVM vs LR优缺点