随机森林中重要特征的统计意义?
Posted
技术标签:
【中文标题】随机森林中重要特征的统计意义?【英文标题】:Statistical significance of important features in a random forest? 【发布时间】:2018-12-31 10:19:46 【问题描述】:我有一个随机森林分类器,它给了我一个特征重要性等级。
如何得出重要特征的统计显着性,类似于可以推断 beta 的统计显着性的回归模型?
【问题讨论】:
您要使用参数检验还是非参数检验?例如t 检验还是置换检验? 【参考方案1】:您的问题有点过于宽泛和不清楚。
查看feature_importance_
values 百分比的简单方法是标准化它们的值:
importance_sum = sum(clf. feature_importances_)
feature_importance_as_percent = [100*(x/sum) for x in clf.feature_importances_]
其他方法将涉及参数或非参数测试。
另请阅读:How are feature_importances in RandomForestClassifier determined?
【讨论】:
以上是关于随机森林中重要特征的统计意义?的主要内容,如果未能解决你的问题,请参考以下文章
R语言随机森林模型:计算随机森林模型的特征重要度(feature importance)并可视化特征重要度使用少数重要特征拟合随机森林模型(比较所有特征模型和重要特征模型在测试集上的表现差异)