使用 H2O 在 R 中平衡随机森林

Posted

技术标签:

【中文标题】使用 H2O 在 R 中平衡随机森林【英文标题】:Balanced random forest in R using H2O 【发布时间】:2019-01-29 21:06:57 【问题描述】:

由于我目前正在研究一个高度不平衡的多类分类问题,我正在考虑平衡随机森林 (https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf)。你有使用 H2O 实现平衡随机森林的经验吗?如果是这样,请您详细说明以下问题:

是否甚至可以更改在 H2O 中创建 bootstrap 样本的默认过程以得出平衡的子样本(对于随机森林中的每次迭代,从少数类中抽取 bootstrap 样本。随机抽取相同数量的每个树生长的原始数据集的情况,有替换,来自大多数类?

【问题讨论】:

【参考方案1】:

H2O 的随机森林不执行自举,而是以 63.2% 的速率进行采样(这是任何自举样本中唯一行的预期值)。

如果你想得到一个平衡的样本,你可以使用参数balance_classes和class_sampling_factors,或者weights_column

【讨论】:

以上是关于使用 H2O 在 R 中平衡随机森林的主要内容,如果未能解决你的问题,请参考以下文章

在 H2O 随机森林和 xgboost 中使用权重列

R语言基于h2o包构建二分类模型:使用h2o.randomForest构建随机森林模型使用h2o.auc计算模型的AUC值

h2o 随机森林中的排列重要性

在 h2o 随机森林中用于“重要性”的度量是啥

随机森林对不平衡数据的回归

r语言随机森林结果规则怎么显示