(本节课各种数学式子比较多。。。。。^_^)
决策树 Decision Tree
? 介绍
? 熵 Entropy
? 信息增益 Information Gain
? 常见算法
? 过度拟合 Overfitting
? 剪枝 Prune
? 增益率 GainRatio
? 更多的DT应?场景类别:
? 连续函数,多分类,回归
? 决策树的究极进化 Ensemble
? Bagging
? Random Forest
? Boosting
? GBDT
? XGBoost
决策树
分治思想
根据不同的条件作出相应的决定
熵
区分数据
信息增益
决策树算法:
ID3算法
C4.5算法
CART算法
Bagging (Breiman, 1996)
Fit many large trees to bootstrap-resampled versions of the training
data, and classify by majority vote.
Random Forest
1、从原始训练数据集中,应?bootstrap?法有放回地随机抽取k个新的?助样本集,
并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-
bag,BBB)。
2、设有n个特征,则在每?棵树的每个节点处随机抽取m个特征,通过计算
每个特征蕴含的信息量,特征中选择?个最具有分类能?的特征进?节点分裂。
3、每棵树最?限度地?长, 不做任何剪裁
4、将?成的多棵树组成随机森林, ?随机森林对新的数据进?分类,
分类结果按树分类器投票多少?定。
Boosting
1. 先在原数据集中长出?个tree
2. 把前?个tree没能完美分类的数据重新weight
3. ?新的re-weighted tree再训练出?个tree
4. 最终的分类结果由加权投票决定
AdaBoost
步骤1. ?先,初始化训练数据的权值分布。每?个训练样本最开始时都被
赋予相同的权值:1/N
步骤2. 进?多轮迭代,?m = 1,2, ..., M表?迭代的第多少轮
步骤3. 组合各个弱分类器
Gradient Boostcd Decision Tree (GBDT)
特点:
a. Adaboost的Regression版本
b. 把残差作为下?轮的学习?标
c. 最终的结果有加权和值得到,不再是简单的多数投票
XGBoost
本质还是个GBDT,但是是把速度和效率做到了极致,所以叫X (Extreme) GBoosted
训练 模型
房价预测案例