随机森林的oob估计是怎样选取数据的
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林的oob估计是怎样选取数据的相关的知识,希望对你有一定的参考价值。
参考技术A 随机森林是一种集成分类器,对影响随机森林性能的参数进行了分析,结果表明随机森林中树的数量对随机森林的性能影响至关重要。对树的数量的确定方法以及随机森林性能指标的评价方法进行了研究与总结。以分类精度为评价方法,利用UCI数据集对随机森林中决策树的数量与数据集的关系进行了实验分析,实验结果表明对于多数数据集,当树的数量为本回答被提问者采纳随机森林(Random Forest, RF)
秉承bagging;
构造多颗相互独立CART决策树,形成一个森林,共同决策输出;
两个随机:
1)输入数据随机:从全体数据中又放回的选取部分数据;
2)每颗决策树构建的特征是从全体特征中随机选取;(从M个特征中选m个,再从这m个选取最优特征作为节点)
优点:
1)不易过拟合,抗噪能力强;
2)高度并行,运算快;
3)无偏估计;
4)对部分特征缺失不敏感;
随机森林调参
1、算法类型:ID3,C4.5,CART
2、树的数目(n_estimator)
(0,100]
较多的子树,提高模型的性能,降低速度;
3、随机属性个数(max_features)
logN、N/3、sqrt(N)、N
增加随机属性个数,提高模型性能,降低单个树的多样性,降低速度;
4、树的最大深度
$[1,\infty )$
-1表示树的完全生长;
5、叶子节点最少记录数(min_sample_leaf):
叶节点数据的最小个数,最小为2,一般50左右
较小的叶子是模型更容易捕捉训练数据的噪声,训练数据效果更好,模型越复杂;
6、叶子节点最少记录百分比
叶节点数据个数占父节点的最小比例;
以上是关于随机森林的oob估计是怎样选取数据的的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用randomForest包构建随机森林模型(Random forests)使用importance函数查看特征重要度使用table函数计算混淆矩阵评估分类模型性能包外错误估计OOB