r中随机森林的类重要性
Posted
技术标签:
【中文标题】r中随机森林的类重要性【英文标题】:class importance for random forest in r 【发布时间】:2015-05-19 20:24:49 【问题描述】:我在 R 中使用randomForest
pkg 根据 11 个数值预测器来预测二元类。在Hit
或Miss
这两个类中,Hit
类更重要,即我想知道正确预测Hit
的次数。
有没有办法让Hit
在训练随机森林时具有更高的重要性?目前,经过训练的随机森林只能正确预测 7% 的 Hit 案例,并且肯定会有所改进。
【问题讨论】:
【参考方案1】:重要性更高?我不知道如何告诉任何算法“这次我不是在开玩笑:我希望这个分析准确。”
您总是在与差异与偏见战斗。如果您过多地提高训练准确度,则会面临过度拟合的风险。
您可以通过改变预测变量随机样本的大小来调整随机森林。如果您有 m 个预测变量,则随机森林的建议是 p = m^1/2 用于树中的分割数。您还可以改变树的数量。绘制不同 p 值的测试分类错误与 # 树的关系,看看你的表现如何。
您也可以尝试其他算法,例如gbm(广义增强回归模型)或support vector machines
当您绘制数据时,您的数据看起来如何?当您在散点图中查看它们时,是否有任何明显的群体跳出来?
无论算法如何,我都建议您对模型进行 n 次验证。
【讨论】:
嗯,也许我会去寻找要添加的其他预测变量。还将研究 GBM 方法。顺便说一句,当当前准确度仅为 7% 时,是否存在过拟合的可能性?我也希望Hit
类获得更高的权重。所以正如你所说,rf
没有办法做到这一点。
我在当前模型中使用了 5 折 cv,为此使用了 caret
pkg。
我认为您不需要添加预测变量;我会调整算法中可用的旋钮。我不知道你是怎么计算7%的,所以我不能说。我不知道更高的重量是什么意思。您的训练数据集中的命中点/未命中点的比率是多少?可能是数据问题。以上是关于r中随机森林的类重要性的主要内容,如果未能解决你的问题,请参考以下文章
R语言随机森林模型:计算随机森林模型的特征重要度(feature importance)并可视化特征重要度使用少数重要特征拟合随机森林模型(比较所有特征模型和重要特征模型在测试集上的表现差异)