随机森林中重要特征的统计意义？

Posted 2023-03-12

技术标签:

【中文标题】随机森林中重要特征的统计意义？【英文标题】：Statistical significance of important features in a random forest? 【发布时间】：2018-12-31 10:19:46 【问题描述】：

我有一个随机森林分类器，它给了我一个特征重要性等级。

如何得出重要特征的统计显着性，类似于可以推断 beta 的统计显着性的回归模型？

【问题讨论】：

您要使用参数检验还是非参数检验？例如t 检验还是置换检验？ 【参考方案1】：

您的问题有点过于宽泛和不清楚。

查看feature_importance_values 百分比的简单方法是标准化它们的值：

importance_sum = sum(clf. feature_importances_)
feature_importance_as_percent =  [100*(x/sum) for x in clf.feature_importances_]

其他方法将涉及参数或非参数测试。

另请阅读：How are feature_importances in RandomForestClassifier determined?

【讨论】：

以上是关于随机森林中重要特征的统计意义？的主要内容，如果未能解决你的问题，请参考以下文章