随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下相关的知识,希望对你有一定的参考价值。
随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下
Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。
有多种自助方法,最常用的是 .632自助法。方法如下:假设给定的数据集包含d个元组,该数据集有放回的抽样d次,产生d个样本的自助样本集或训练集。原始数据元组中的某些元组很可能在该样本集中出现多次。没有进入该训练集的数据元组最终形成检验集。假设进行这样的抽样多次。其结果是:在平均情况下,63.2%原始数据元组将出现在自助样本中,而其他36.8%的元组将形成检验集。
“数字63.2%从何而来?”每个元组被选中的概率是 1/d, 因此未被选中的概率是(1-1/d), 需要挑选 d 次,因此一个元组在 d 次都未被选中的概率是(1-1/d)^d。如果 d 很大,该概率近似为 e^(-1)=0.368。因此36.8%的元组将作为验证集。
可以重复抽样过程 k 次,其中在每次迭代中,使用当前的检验集得到从当前自助样本得到的模型的准确率估计。模型的总体准确率则用下式估计
以上是关于随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下的主要内容,如果未能解决你的问题,请参考以下文章
pandas对dataframe的数据行进行随机抽样(Random Sample of Rows):使用sample函数进行数据行随机抽样(有放回的随机抽样,replacement)
R语言使用sample函数从dataframe中抽样指定个数的数据行并配置是否有放回抽样(Random samples)