数据分析45讲—支持向量机SVM(笔记)

Posted 2022-12-05 啊～小 l i

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据分析45讲—支持向量机SVM(笔记)相关的知识，希望对你有一定的参考价值。

什么是svm

SVM 的英文叫 Support Vector Machine，中文名为支持向量机。它是常见的一种分类方法，在机器学习中，SVM 是有监督的学习模型。

监督学习

监督学习是指的是我们需要事先对数据打上分类标签，这样机器就知道这个数据属于哪个分类。同样无监督学习，就是数据没有被打上分类标签，这可能是因为我们不具备先验的知识，或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作，比如将数据进行聚类，方便后续人工对每个类进行分析。SVM 作为有监督的学习模型，通常可以帮我们模式识别、分类以及回归分析。

SVM 的工作原理

用SVM 计算的过程就是帮我们找到一个超平面的过程，这个超平面就是我们的 SVM 分类器。
demo
其实我们可以有多种直线划分两个不同的数据集，比如下图所示的直线 A、直线 B 和直线 C，究竟哪种才是更好的划分呢？

很明显图中的直线 B 更靠近蓝色球，但是在真实环境下，球再多一些的话，蓝色球可能就被划分到了直线 B 的右侧，被认为是红色球。同样直线 A 更靠近红色球，在真实环境下，如果红色球再多一些，也可能会被误认为是蓝色球。所以相比于直线 A 和直线 B，直线 C 的划分更优，因为它的鲁棒性更强。
**鲁棒性:**鲁棒性(Robustness)维基百科：计算机科学中，健壮性(英语：Robustness)是指一个计算机系统在执行过程中处理错误，以及算法在遭遇输入、运算等异常时继续正常运行的能力。诸如模糊测试之类的形式化方法中，必须通过制造错误的或不可预期的输入来验证程序的健壮性。很多商业产品都可用来测试软件系统的健壮性。健壮性也是失效评定分析中的一个方面。
**分类间隔：**分离决策边界与离之最近的训练样本点之间的距离。
我们可以移动决策面 C，直到产生两个极限的位置：如图中的决策面 A 和决策面 B。极限的位置是指，如果越过了这个位置，就会产生分类错误。这样的话，两个极限位置 A 和 B 之间的分界线 C 就是最优决策面。极限位置到最优决策面 C 之间的距离，就是“分类间隔”，英文叫做 margin。
如果我们转动这个最优决策面，你会发现可能存在多个最优决策面，它们都能把数据集正确分开，这些最优决策面的分类间隔可能是不同的，而那个拥有“最大间隔”（max margin）的决策面就是 SVM 要找的最优解。

以上是关于数据分析45讲—支持向量机SVM(笔记)的主要内容，如果未能解决你的问题，请参考以下文章

SVM笔记四之线性支持向量机(软间隔最大化)

支持向量机第2讲：SVM的数学原理

监督学习——支持向量机(Support Vector Machine)

支持向量机（SVM）--软间隔

机器学习之支持向量机

2. 支持向量机（SVM）软间隔