具有相关特征的随机森林

Posted

技术标签:

【中文标题】具有相关特征的随机森林【英文标题】:Random Forests with correlated features 【发布时间】:2018-12-01 05:14:08 【问题描述】:

在我的数据集中,我有 2 个特征不仅相互关联,而且只有在彼此存在的情况下才有意义。例如,一个是尝试任务的次数,另一个是成功的次数。

如前所述,似乎是我单独采取了 2 个中的一个并没有提供任何信息。我是否应该制定一个方案,如果我在我的 RF 的树中选择其中一个,我会自动包含另一个?

如果是这样,是否可以使用 scikit-learn 的 RF 类来做到这一点?

谢谢!

【问题讨论】:

考虑在datascience.stackexchange.com上提问 您可以将其作为一项新功能来使用 被问到这里datascience.stackexchange.com/questions/33487/… 【参考方案1】:

为成功率引入一个新功能,即successes / attempts。现在这个可能重要的概念对分类器/回归器更有用。 随机森林算法对冗余特征具有鲁棒性,因此您应该尝试保留原始特征,它可能会添加预测信息。查看经过训练的森林的特征重要性分数以了解选择了哪些特征。

【讨论】:

以上是关于具有相关特征的随机森林的主要内容,如果未能解决你的问题,请参考以下文章

特征筛选(随机森林)

随机森林回归进行特征重要性排序时,如何同时得知特征x与预测量y之间是正相关还是负相关?

随机森林:寻找相关特征

利用随机森林对特征重要性进行评估

如何在pyspark中打印具有特征名称的随机森林的决策路径?

决策树与随机森林