随机森林回归中的树数

Posted

技术标签:

【中文标题】随机森林回归中的树数【英文标题】:Number of Trees in Random Forest Regression 【发布时间】:2019-10-23 14:58:38 【问题描述】:

我正在学习随机森林回归模型。我知道它形成了许多树(模型),然后我们可以通过平均所有树的结果来预测我们的目标变量。我对决策树回归算法也有下降的理解。我们怎样才能形成最好的树数?

例如,我有一个数据集,我在其中预测人员薪水,并且我只有两个输入变量,即“经验年限”、“绩效得分”,那么我可以使用这样的数据集形成多少随机树?随机森林树是否取决于输入变量的数量?任何好的例子都将受到高度赞赏..

提前致谢

【问题讨论】:

为什么将其标记为“深度学习”? 问题与deep-learning 无关 - 请不要向无关标签发送垃圾邮件(已删除并替换为random-forest 【参考方案1】:

决策树在整个数据集上训练模型,并且只创建一个模型。在随机森林中,会创建多个决策树,并通过限制行数和特征来对每个决策树进行数据子集的训练。在您的情况下,您只有两个特征,因此模型将根据数据子集创建和训练数据。

您可以为您的数据创建任意数量的随机树。通常在随机森林中,更多的树会带来更好的性能,但也会有更多的计算时间。试验你的数据,看看不同数量的树之间的性能变化。如果性能保持不变,则使用更少的树以获得更快的计算。您可以为此使用网格搜索。

您还可以尝试其他机器学习模型,例如线性回归,这可能在您的情况下表现良好。

【讨论】:

@user9165263 你的经验和判断告诉你在随机森林中过度拟合的可能性是什么?

以上是关于随机森林回归中的树数的主要内容,如果未能解决你的问题,请参考以下文章

随机森林和GBDT进行比较

随机森林RF与GBDT之间的区别

旋转随机森林算法

随机森林中的树细节

随机森林

在随机森林中的树中的每个节点处随机选择变量