h2o 随机森林中的排列重要性
Posted
技术标签:
【中文标题】h2o 随机森林中的排列重要性【英文标题】:permutation importance in h2o random Forest 【发布时间】:2019-01-06 04:09:15 【问题描述】:随机森林的 CRAN 实现提供了可变重要性度量:基尼重要性以及广泛使用的排列重要性定义为
对于分类,它是一个案例增加的百分比 当变量被置换时,OOB 和错误分类。对于回归, 它是当变量时 OOB 残差平方的平均增加 被置换了
默认情况下 h2o.varimp() 只计算前者。 h2o 中真的没有选项可以从随机森林模型中获取替代度量吗?
谢谢! 机器学习
【问题讨论】:
【参考方案1】:H2O 不计算排列重要性。请参阅documentation 了解如何计算变量重要性的说明。
为方便起见,我将其粘贴在下面:
如何计算 DRF 的变量重要性?
变量的重要性是通过计算每个变量的相对影响来确定的:在树构建过程中是否选择了该变量,以及结果平方误差(在所有树上)改善了多少。
之前已经针对此问题提出了功能请求,您可以关注它here(尽管请注意它目前处于打开状态)。
【讨论】:
谢谢,这个答案既有用又令人惊讶,因为在存在分类变量的情况下,基尼重要性受到巨大偏差的影响 请参阅此帖子 (blog.hwr-berlin.de/codeandstats/…),了解有关基尼重要性风险的示例。 请问是否可以获取 h2o 森林中单个树木的 oob 索引?这将使我能够编写自己的排列重要性函数。以上是关于h2o 随机森林中的排列重要性的主要内容,如果未能解决你的问题,请参考以下文章
R语言基于h2o包构建二分类模型:使用h2o.randomForest构建随机森林模型使用h2o.auc计算模型的AUC值