机器学习 之 SVM VC维度样本数目与经验风险最小化的关系

Posted slgkaifa

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 之 SVM VC维度样本数目与经验风险最小化的关系相关的知识,希望对你有一定的参考价值。

        VC维在有限的训练样本情况下,当样本数 n 固定时。此时学习机器的 VC 维越高学习机器的复杂性越高。

VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。


        所谓的结构风险最小化就是在保证分类精度(经验风险)的同一时候,减少学习机器的 VC 维,能够使学习机器在整个样本集上的期望风险得到控制。


        经验风险和实际风险之间的关系,注意引入这个原因是什么?

        由于训练误差再小也就是在这个训练集合上,实际的推广能力不行就会引起过拟合问题。

所以说要引入置信范围也就是经验误差和实际期望误差之间的关系

        期望误差R(ω) ≤ Remp (ω)+ Φ(n/h)

        注意Remp (ω)是经验误差也就是训练误差(线性中使得全部的都训练正确)。

        Φ(n/h)是置信范围,它是和样本数和VC维有关的。

        上式中置信范围Φ 随n/h添加,单调下降。

        即当n/h较小时,置信范围Φ 较大,用经验风险近似实际风险就存在较大的误差。因此,用採用经验风险最小化准则。取得的最优解可能具有较差的推广性;

        假设样本数较多,n/h较大。则置信范围就会非常小,採用经验风险最小化准则,求得的最优解就接近实际的最优解。

        可知:影响期望风险上界的因子有两个方面:

        首先是训练集的规模 n,其次是 VC 维 h。

        可见,在保证分类精度(经验风险)的同一时候。减少学习机器的 VC 维,能够使学习机器在整个样本集上的期望风险得到控制,这就是结构风险最小化(Structure Risk Minimization,简称 SRM)的由来。

        在有限的训练样本情况下,当样本数 n 固定时。此时学习机器的 VC 维越高(学习机器的复杂性越高),则置信范围就越大,此时。真实风险与经验风险之间的区别就越大,这就是为什么会出现过学习现象的原因。

        机器学习过程不但要使经验风险最小。还要使其 VC 维尽量小,以缩小置信范围。才干取得较小的实际风险。即对未来样本有较好的推广性,它与学习机器的 VC 维及训练样本数有关。

以上是关于机器学习 之 SVM VC维度样本数目与经验风险最小化的关系的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之支持向量机(SVM)

机器学习之支持向量机

SVM入门

时间序列预测基于matlab粒子群算法优化SVM时间序列预测含Matlab源码 259期

文本分类学习 支持向量机SVM 的前奏 结构风险最小化和VC维度理论

支持向量机简介