决策树随机森林GBDTXGBoost

Posted qianyuesheng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树随机森林GBDTXGBoost相关的知识,希望对你有一定的参考价值。

(本节课各种数学式子比较多。。。。。^_^)

决策树 Decision Tree
? 介绍
? 熵 Entropy
? 信息增益 Information Gain
? 常见算法
? 过度拟合 Overfitting
? 剪枝 Prune
? 增益率 GainRatio
? 更多的DT应?场景类别:
? 连续函数,多分类,回归
? 决策树的究极进化 Ensemble
? Bagging
? Random Forest
? Boosting
? GBDT
? XGBoost

 

决策树

  分治思想

  根据不同的条件作出相应的决定

  区分数据

信息增益

决策树算法:  

  ID3算法

  C4.5算法

  CART算法

 

 

Bagging (Breiman, 1996)
Fit many large trees to bootstrap-resampled versions of the training
data, and classify by majority vote.


Random Forest 

  1、从原始训练数据集中,应?bootstrap?法有放回地随机抽取k个新的?助样本集,
并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-
bag,BBB)。
  2、设有n个特征,则在每?棵树的每个节点处随机抽取m个特征,通过计算
每个特征蕴含的信息量,特征中选择?个最具有分类能?的特征进?节点分裂。
  3、每棵树最?限度地?长, 不做任何剪裁
  4、将?成的多棵树组成随机森林, ?随机森林对新的数据进?分类,
分类结果按树分类器投票多少?定。

Boosting
  1. 先在原数据集中长出?个tree
  2. 把前?个tree没能完美分类的数据重新weight
  3. ?新的re-weighted tree再训练出?个tree
  4. 最终的分类结果由加权投票决定

  AdaBoost

    步骤1. ?先,初始化训练数据的权值分布。每?个训练样本最开始时都被
赋予相同的权值:1/N

      步骤2. 进?多轮迭代,?m = 1,2, ..., M表?迭代的第多少轮

    步骤3. 组合各个弱分类器

 

Gradient Boostcd Decision Tree (GBDT)

特点:

   a. Adaboost的Regression版本 

   b. 把残差作为下?轮的学习?标
     c. 最终的结果有加权和值得到,不再是简单的多数投票

 

 

XGBoost
  本质还是个GBDT,但是是把速度和效率做到了极致,所以叫X (Extreme) GBoosted

 

训练 模型

  房价预测案例

 

以上是关于决策树随机森林GBDTXGBoost的主要内容,如果未能解决你的问题,请参考以下文章

10、决策树集成--随机森林

决策树、随机森林

决策树与随机森林

分类算法 - 随机森林

随机森林

随机森林,决策树(Random Forest)