随机森林算法OOB_SCORE最佳特征选择

Posted dinol

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林算法OOB_SCORE最佳特征选择相关的知识,希望对你有一定的参考价值。

Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征组合,减少特征冗余;

原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(Out_of_bag)袋外样本,通过袋外样本,可以评估这个树的准确度,其他子树叶按这个原理评估,最后可以取平均值,即是随机森林算法的性能;

特征选择原理:因为袋外样本的存在,因此不需要进行十字交叉测试(节省时间),通过依次对每个特征赋予一个随机数,观察算法性能的变化,倘若变化大,则说明该特征重要,sklearn中会对每个特征赋予一个分数,分数越大,特征越重要,因此,可以根据特征重要性排序,然后选择最佳特征组合;

RandomForestClassifier(n_estimators=200,oob_score=True)

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

oob_score:  bool(默认=False) 是否使用袋外样品进行估算 泛化精度。

以上是关于随机森林算法OOB_SCORE最佳特征选择的主要内容,如果未能解决你的问题,请参考以下文章

随机森林与Adaboost

利用随机森林对特征重要性进行评估

随机森林

特征筛选(随机森林)

随机森林树生长算法

随机森林回归器的特征选择