机器学习碎碎念：霍夫丁不等式

Posted 2022-08-26 wx5d44d4866b864

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习碎碎念：霍夫丁不等式相关的知识，希望对你有一定的参考价值。

关键时刻，第一时间送达！

红色石头每天碎碎念一些机器学习知识和概念，大家一起学习，每天进步一点点！喜欢的话别忘了文末点赞支持一下哦~

如果有一个装有很多（数量很大数不过来）橙色球和绿色球的罐子，我们能不能推断橙色球的比例 u？统计学上的做法是，从罐子中随机取出 N 个球，作为样本，计算这N 个球中橙色球的比例 v，那么就可以估计出罐子中橙色球的比例约为 v。

这种随机抽取的做法能否说明罐子里橙色球的比例一定是 v 呢？答案是否定的。但是从概率的角度来说，样本中的 v 很有可能接近我们未知的 u。当 N 足够大的时候，v接近于 u。这就是霍夫丁不等式（Hoeffding’s inequality）：

机器学习碎碎念：霍夫丁不等式_泛化

其中，P 表示概率。霍夫丁不等式说明当 N 很大的时候，v 与 u 相差不会很大，它们之间的差值被限定在ϵ 之内。

重点，对应到机器学习中，我们可以令训练误差 Ein = v，泛化误差 Eout = u。那么，当训练样本数目足够多的时候，可以得到相应的霍夫丁不等式：

机器学习碎碎念：霍夫丁不等式_过拟合_02

上面的霍夫丁不等式说明了，选择合适的足够训练样本，训练的模型一般能使 Ein 与 Eout 近似相等，即泛化能力较好（除非过拟合）。总的来看，霍夫丁不等式是保证机器可以学习的一个条件！

机器学习碎碎念：霍夫丁不等式_过拟合_03

- End -

机器学习碎碎念：霍夫丁不等式_泛化_04

以上是关于机器学习碎碎念：霍夫丁不等式的主要内容，如果未能解决你的问题，请参考以下文章