r中随机森林的类重要性

Posted

技术标签:

【中文标题】r中随机森林的类重要性【英文标题】:class importance for random forest in r 【发布时间】:2015-05-19 20:24:49 【问题描述】:

我在 R 中使用randomForest pkg 根据 11 个数值预测器来预测二元类。在HitMiss 这两个类中,Hit 类更重要,即我想知道正确预测Hit 的次数。

有没有办法让Hit 在训练随机森林时具有更高的重要性?目前,经过训练的随机森林只能正确预测 7% 的 Hit 案例,并且肯定会有所改进。

【问题讨论】:

【参考方案1】:

重要性更高?我不知道如何告诉任何算法“这次我不是在开玩笑:我希望这个分析准确。”

您总是在与差异与偏见战斗。如果您过多地提高训练准确度,则会面临过度拟合的风险。

您可以通过改变预测变量随机样本的大小来调整随机森林。如果您有 m 个预测变量,则随机森林的建议是 p = m^1/2 用于树中的分割数。您还可以改变树的数量。绘制不同 p 值的测试分类错误与 # 树的关系,看看你的表现如何。

您也可以尝试其他算法,例如gbm(广义增强回归模型)或support vector machines

当您绘制数据时,您的数据看起来如何?当您在散点图中查看它们时,是否有任何明显的群体跳出来?

无论算法如何,我都建议您对模型进行 n 次验证。

【讨论】:

嗯,也许我会去寻找要添加的其他预测变量。还将研究 GBM 方法。顺便说一句,当当前准确度仅为 7% 时,是否存在过拟合的可能性?我也希望Hit 类获得更高的权重。所以正如你所说,rf 没有办法做到这一点。 我在当前模型中使用了 5 折 cv,为此使用了 caret pkg。 我认为您不需要添加预测变量;我会调整算法中可用的旋钮。我不知道你是怎么计算7%的,所以我不能说。我不知道更高的重量是什么意思。您的训练数据集中的命中点/未命中点的比率是多少?可能是数据问题。

以上是关于r中随机森林的类重要性的主要内容,如果未能解决你的问题,请参考以下文章

R语言随机森林模型:计算随机森林模型的特征重要度(feature importance)并可视化特征重要度使用少数重要特征拟合随机森林模型(比较所有特征模型和重要特征模型在测试集上的表现差异)

R语言 | randomForest包的随机森林回归模型以及对重要变量的选择

如何使用 R 在随机森林中生成决策树图和变量重要性图?

R语言随机森林模型中具有相关特征的变量重要性

机器学习:R语言实现随机森林

使用随机森林的基于 AUC 的特征重要性