机器学习基石笔记-Lecture 4 Learning is possible

Posted Akane

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习基石笔记-Lecture 4 Learning is possible相关的知识,希望对你有一定的参考价值。

hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值。

技术分享

技术分享

类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候,Ein与Eout近似相等。

技术分享

 

现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的。

技术分享

 

现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不是就应该选择这个h作为算法A的输出?

 

这里提出一个 bad data的概念,对一个数据集D,h的Ein和Eout差别很大,那么这个数据集D就是不好的。

hoeffding不等式其实是对样本空间的一个“抽样”穷举,然后在很多次的抽样中,只有很少次的抽样是bad data,也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

技术分享

 

对多个假设函数而言的bad data定义:

技术分享

对每一行h,根据hoeffding不等式,bad data的概率是很小的

对每一列Di,如果在某些h上是bad data,那么A就不能自由的选择。

像D1126就是对整个假设空间H或者说算法A是一个好的数据集(个人理解)

技术分享

对有M个h的假设空间,bad data出现的概率被限制住

技术分享

至此,对有限基数的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。

只要算法A找到一个Ein很小的g,那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

技术分享

以上是关于机器学习基石笔记-Lecture 4 Learning is possible的主要内容,如果未能解决你的问题,请参考以下文章

机器学习基石笔记-Lecture 10 Logistic regression

机器学习基石笔记-Lecture 9 Linear regression

机器学习基石笔记1

机器学习基石笔记-Lecture 5-7 VC dimension

机器学习基石笔记11——机器可以怎样学习

机器学习基石笔记12——机器可以怎样学习