随机森林回归中的树数
Posted
技术标签:
【中文标题】随机森林回归中的树数【英文标题】:Number of Trees in Random Forest Regression 【发布时间】:2019-10-23 14:58:38 【问题描述】:我正在学习随机森林回归模型。我知道它形成了许多树(模型),然后我们可以通过平均所有树的结果来预测我们的目标变量。我对决策树回归算法也有下降的理解。我们怎样才能形成最好的树数?
例如,我有一个数据集,我在其中预测人员薪水,并且我只有两个输入变量,即“经验年限”、“绩效得分”,那么我可以使用这样的数据集形成多少随机树?随机森林树是否取决于输入变量的数量?任何好的例子都将受到高度赞赏..
提前致谢
【问题讨论】:
为什么将其标记为“深度学习”? 问题与deep-learning
无关 - 请不要向无关标签发送垃圾邮件(已删除并替换为random-forest
)
【参考方案1】:
决策树在整个数据集上训练模型,并且只创建一个模型。在随机森林中,会创建多个决策树,并通过限制行数和特征来对每个决策树进行数据子集的训练。在您的情况下,您只有两个特征,因此模型将根据数据子集创建和训练数据。
您可以为您的数据创建任意数量的随机树。通常在随机森林中,更多的树会带来更好的性能,但也会有更多的计算时间。试验你的数据,看看不同数量的树之间的性能变化。如果性能保持不变,则使用更少的树以获得更快的计算。您可以为此使用网格搜索。
您还可以尝试其他机器学习模型,例如线性回归,这可能在您的情况下表现良好。
【讨论】:
@user9165263 你的经验和判断告诉你在随机森林中过度拟合的可能性是什么?以上是关于随机森林回归中的树数的主要内容,如果未能解决你的问题,请参考以下文章