吃瓜教程——datawhale10月组队学习

Posted scdctlt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了吃瓜教程——datawhale10月组队学习相关的知识,希望对你有一定的参考价值。

task03:概览西瓜书+南瓜书第4章

4.1 决策树算法

其中有三条返回的准则:
(1) 当前结点包含的样本全属于同一类别,无需划分;
(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
(3) 当前结点包含的样本集合为空,不能划分.

**处理方法:**		
 针对(1):直接作为叶子节点
 针对(2):可以把当前结点标记为叶结点,井将其类别设定为该结点所含样本最多的类别(当前结点的后验分布);	
 针对(3):同样把当前结点标记为叶结点,且将其类别设定为其父结点所含样本最多的类别.(把父结点的样本分布作为当前结点的先捡分布.)

4.2 划分的属性选择
决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity) 越来越高.
信息熵

信息熵越小,含有的信息越重要,可作为划分属性排序越长
信息增益

信息增益率

基尼指数
基尼值

基尼值的值越小,纯度越高,可以用基尼指数来划分:

验证书中p78 图4.4根蒂为最优划分属性


4.3 先剪枝与后剪枝

剪枝操作为了防止训练样本学得"太好"了,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合.

4.3.1 预剪枝

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计
若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;


4.3.2 后剪枝

	后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察
若将该结点对应的子树替换为叶子结点,能带来决策树泛化性能提升,则将该子树替换为叶结点.


优缺点:
预剪枝:使得决策树的很多分支都没有"展开,不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销.但另一方面,有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提高;预剪枝基于"贪心"本质禁止这些分支展开 给预剪枝决策树带来了欠拟含的风险
后剪枝:决策树通常比预剪枝决策树保留了更多的分支. 一般情形下?后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的7 并且要白底向上地对树中的所有非叶结点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

4.4 连续与缺失值

——————————未完待续——————————


以上是关于吃瓜教程——datawhale10月组队学习的主要内容,如果未能解决你的问题,请参考以下文章

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习