抓一只鸡——支持向量机预测
Posted 私人数据挖掘机
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抓一只鸡——支持向量机预测相关的知识,希望对你有一定的参考价值。
(miner==小编)
之前种树的时候我们一般是去找那个信息熵最小的点来完成切分,但是在现实的分类状况中有这样一种情况,样本属性字段只有一个,并且不能进行一刀切的分割。比如还是从某学校招生网站上招来两列数据:
假设是否录取仅仅与排名有关(据说北京某大学真的是这样的,不过不是这所),但是不能找到一个切分点对样本进行分割,暂时理解为老板各有偏好吧,有的人喜欢排名靠前的有的喜欢排名靠后的(细心的你相比已经发现这是个悖论了,如果有人喜欢排名靠后的,也就是说明录取与否不仅仅和排名相关,没错,我就是这么善于给自己揭短)。
但是我们今天就假设有人单纯的喜欢排名靠后的学生,因为这个世界不是学霸说了算的!这个时候如果还要对样本建立分类规则就需要去抓一只鸡——支持向量机。
算法:
支持向量机是一个划分空间的算法,其算法核心是升维,miner先用一个简单的例子对支持向量机的升维做一个解释。假设现在是一个以为的数轴,分类结果共有两类三角和圈。所有的三角形全部聚集在0-1之间,其它区域全部为圈,如图所示:
这时没有哪个位置可以一刀切的完成分割,但是又想使用两段来对样本进行分割,就需要使用升维的方法,使用一个二维空间的函数来分割这个样本空间:
高中时代的大家相比都听过一个解不等式的口诀,叫大于两边分小于在中间,这里通过构造y=x(x-1)这个二维空间函数将一维空间进行了有效分割,达到了一刀切的目的。而支持向量机就是完成这个工作的,可以解决n维空间内的一刀切任务,其方法就是在n+1维空间中寻找一个所谓的超平面,恰好在两个类中间分开。
实例:
同样的思路经历训练和预测两个部分。将上面的表格作为训练样本,然后随意写一个排名比例(排名除以总人数)就可以看到录取结果咯!只不过本期的训练样本是一个字段,显得非常的草率,结果当然也不必当真咯!
以上是关于抓一只鸡——支持向量机预测的主要内容,如果未能解决你的问题,请参考以下文章
LSSVM回归预测基于matlab狮群算法优化最小二乘支持向量机LSO-LSSVM数据回归预测含Matlab源码 2261期