自助采样包含训练集里63.2%的样本?

Posted 2021-01-15 crackpotisback

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了自助采样包含训练集里63.2%的样本?相关的知识，希望对你有一定的参考价值。

自助采样包含训练集里63.2%的样本?

在学习随机森林的时候，经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。“

那么这个63.2%是怎么来的呢？假设我们有n个样本，有放回的进行抽取，那么每个样本不被抽取的概率为(1 - dfrac{1}{n})。我们需要抽取n轮，那么某个样本一直不被抽到的概率为
[ p=（1 - dfrac{1}{n})^n ]
当n足够大的时候有
[ p = lim_{n o +infty}(1 - dfrac{1}{n})^n ]
这个p该怎么算？实际上在课本里有一个公式
[ e^x=lim_{n oinfty}(1 + dfrac{x}{n})^n ]
当x=-1的时候对应着上述的p，由此可得自助采样没有采到的样本大概占整个样本集的(e^{-1})，那么自助采样包含训练集里的样本即为(1 - e^{-1} approx 0.632 approx dfrac{2}{3})

以上是关于自助采样包含训练集里63.2%的样本?的主要内容，如果未能解决你的问题，请参考以下文章