h2o 随机森林中的排列重要性

Posted

技术标签:

【中文标题】h2o 随机森林中的排列重要性【英文标题】:permutation importance in h2o random Forest 【发布时间】:2019-01-06 04:09:15 【问题描述】:

随机森林的 CRAN 实现提供了可变重要性度量:基尼重要性以及广泛使用的排列重要性定义为

对于分类,它是一个案例增加的百分比 当变量被置换时,OOB 和错误分类。对于回归, 它是当变量时 OOB 残差平方的平均增加 被置换了

默认情况下 h2o.varimp() 只计算前者。 h2o 中真的没有选项可以从随机森林模型中获取替代度量吗?

谢谢! 机器学习

【问题讨论】:

【参考方案1】:

H2O 不计算排列重要性。请参阅documentation 了解如何计算变量重要性的说明。

为方便起见,我将其粘贴在下面:

如何计算 DRF 的变量重要性?

变量的重要性是通过计算每个变量的相对影响来确定的:在树构建过程中是否选择了该变量,以及结果平方误差(在所有树上)改善了多少。

之前已经针对此问题提出了功能请求,您可以关注它here(尽管请注意它目前处于打开状态)。

【讨论】:

谢谢,这个答案既有用又令人惊讶,因为在存在分类变量的情况下,基尼重要性受到巨大偏差的影响 请参阅此帖子 (blog.hwr-berlin.de/codeandstats/…),了解有关基尼重要性风险的示例。 请问是否可以获取 h2o 森林中单个树木的 oob 索引?这将使我能够编写自己的排列重要性函数。

以上是关于h2o 随机森林中的排列重要性的主要内容,如果未能解决你的问题,请参考以下文章

在 h2o 随机森林中用于“重要性”的度量是啥

使用 H2O 在 R 中平衡随机森林

r 上的 H2o 随机森林图

在 H2O 随机森林和 xgboost 中使用权重列

R语言基于h2o包构建二分类模型:使用h2o.randomForest构建随机森林模型使用h2o.auc计算模型的AUC值

特征筛选(随机森林)