r中随机森林的类重要性

Posted 2023-03-12

技术标签:

【中文标题】r中随机森林的类重要性【英文标题】：class importance for random forest in r 【发布时间】：2015-05-19 20:24:49 【问题描述】：

我在 R 中使用randomForest pkg 根据 11 个数值预测器来预测二元类。在Hit 或Miss 这两个类中，Hit 类更重要，即我想知道正确预测Hit 的次数。

有没有办法让Hit 在训练随机森林时具有更高的重要性？目前，经过训练的随机森林只能正确预测 7% 的 Hit 案例，并且肯定会有所改进。

【问题讨论】：

【参考方案1】：

重要性更高？我不知道如何告诉任何算法“这次我不是在开玩笑：我希望这个分析准确。”

您总是在与差异与偏见战斗。如果您过多地提高训练准确度，则会面临过度拟合的风险。

您可以通过改变预测变量随机样本的大小来调整随机森林。如果您有 m 个预测变量，则随机森林的建议是 p = m^1/2 用于树中的分割数。您还可以改变树的数量。绘制不同 p 值的测试分类错误与 # 树的关系，看看你的表现如何。

您也可以尝试其他算法，例如gbm（广义增强回归模型）或support vector machines

当您绘制数据时，您的数据看起来如何？当您在散点图中查看它们时，是否有任何明显的群体跳出来？

无论算法如何，我都建议您对模型进行 n 次验证。

【讨论】：

嗯，也许我会去寻找要添加的其他预测变量。还将研究 GBM 方法。顺便说一句，当当前准确度仅为 7% 时，是否存在过拟合的可能性？我也希望Hit 类获得更高的权重。所以正如你所说，rf 没有办法做到这一点。我在当前模型中使用了 5 折 cv，为此使用了 caret pkg。我认为您不需要添加预测变量；我会调整算法中可用的旋钮。我不知道你是怎么计算7%的，所以我不能说。我不知道更高的重量是什么意思。您的训练数据集中的命中点/未命中点的比率是多少？可能是数据问题。

以上是关于r中随机森林的类重要性的主要内容，如果未能解决你的问题，请参考以下文章