数据分析45讲—支持向量机SVM(笔记)

Posted 啊~小 l i

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析45讲—支持向量机SVM(笔记)相关的知识,希望对你有一定的参考价值。

什么是svm

SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。

监督学习

监督学习是指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比如将数据进行聚类,方便后续人工对每个类进行分析。SVM 作为有监督的学习模型,通常可以帮我们模式识别、分类以及回归分析。

SVM 的工作原理

用SVM 计算的过程就是帮我们找到一个超平面的过程,这个超平面就是我们的 SVM 分类器。
demo
其实我们可以有多种直线划分两个不同的数据集,比如下图所示的直线 A、直线 B 和直线 C,究竟哪种才是更好的划分呢?

很明显图中的直线 B 更靠近蓝色球,但是在真实环境下,球再多一些的话,蓝色球可能就被划分到了直线 B 的右侧,被认为是红色球。同样直线 A 更靠近红色球,在真实环境下,如果红色球再多一些,也可能会被误认为是蓝色球。所以相比于直线 A 和直线 B,直线 C 的划分更优,因为它的鲁棒性更强。
**鲁棒性:**鲁棒性(Robustness)维基百科:计算机科学中,健壮性(英语:Robustness)是指一个计算机系统在执行过程中处理错误,以及算法在遭遇输入、运算等异常时继续正常运行的能力。 诸如模糊测试之类的形式化方法中,必须通过制造错误的或不可预期的输入来验证程序的健壮性。很多商业产品都可用来测试软件系统的健壮性。健壮性也是失效评定分析中的一个方面。
**分类间隔:**分离决策边界与离之最近的训练样本点之间的距离。
我们可以移动决策面 C,直到产生两个极限的位置:如图中的决策面 A 和决策面 B。极限的位置是指,如果越过了这个位置,就会产生分类错误。这样的话,两个极限位置 A 和 B 之间的分界线 C 就是最优决策面。极限位置到最优决策面 C 之间的距离,就是“分类间隔”,英文叫做 margin。
如果我们转动这个最优决策面,你会发现可能存在多个最优决策面,它们都能把数据集正确分开,这些最优决策面的分类间隔可能是不同的,而那个拥有“最大间隔”(max margin)的决策面就是 SVM 要找的最优解。

以上是关于数据分析45讲—支持向量机SVM(笔记)的主要内容,如果未能解决你的问题,请参考以下文章

支持向量机第2讲:SVM的数学原理

机器学习笔记支持向量机(SVM)

数据挖掘---支持向量机(SVM)

Python数模笔记-Sklearn支持向量机

Python数模笔记-Sklearn支持向量机

支持向量机原理线性支持回归