随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?相关的知识,希望对你有一定的参考价值。
随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?
随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。
随机森林是由很多决策树构成的,不同决策树之间没有关联。
当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
- 一个样本容量为N的样本,有放回的抽取N次,每次抽取1个,最终形成了N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。
- 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。
- 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
- 按照步骤1~3建立大量的决策树,这样就构成了随机森林了。
以上是关于随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?的主要内容,如果未能解决你的问题,请参考以下文章
Spark Random Forest classifier 随机森林分类
使用随机森林(Random Forest)进行特征筛选并可视化