决策树
Posted hapyygril
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树相关的知识,希望对你有一定的参考价值。
(1)建树
1. 选择属性
ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数
2. 选择属性的最优分割点
ID3算法:使用信息增益作为分裂的规则,信息增益越大,则选取该分裂规则。多分叉树
缺点:归纳偏置问题: ID3算法会偏向于选择类别较多的属性
另外输入变量必须是分类变量(连续变量必须离散化)
最后无法处理空值。
C4.5算法:使用信息增益率作为分裂规则,避免了ID3算法中的归纳偏置问题;多分叉树
连续属性的分裂只能二分裂,离散属性的分裂可以多分裂
CART算法:既可以做分类,也可以做回归。只能形成二叉树。
分支方法:连续特征:比较阈值;离散特征:抽取子特征
得分函数:分类树:众数,回归树:均值。
损失函数:分类树:基尼系数;回归树:平方差
分类规则:分类树:基尼系数;回归树:平方差
(2)剪枝
以上是关于决策树的主要内容,如果未能解决你的问题,请参考以下文章