机器学习总结决策树ID3，C4.5算法，CART算法

Posted 2021-01-17 jackhehe

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习总结决策树ID3，C4.5算法，CART算法相关的知识，希望对你有一定的参考价值。

本文主要总结决策树中的ID3,C4.5和CART算法，各种算法的特点，并对比了各种算法的不同点。

决策树：是一种基本的分类和回归方法。在分类问题中，是基于特征对实例进行分类。既可以认为是if-then规则的集合，也可以认为是定义在特征空间和类空间上的条件概率分布。

决策树模型：决策树由结点和有向边组成。结点一般有两种类型，一种是内部结点，一种是叶节点。内部结点一般表示一个特征，而叶节点表示一个类。当用决策树进行分类时，先从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到子结点。而子结点这时就对应着该特征的一个取值。如此递归对实例进行测试分配，直至达到叶结点，则该实例属于该叶节点的类。

决策树分类的主要算法有ID3，C4.5。回归算法为CART算法，该算法既可以分类也可以进行回归。

（一）特征选择与信息增益准则

特征选择在于选取对训练数据具有分类能力的特征，而且是分类能力越强越好，这样子就可以提高决策树的效率。如果利用一个特征进行分类，分类的结果与随机分类的结果没有差异，那么这个特征是没有分类能力的。那么用什么来判别一个特征的分类能力呢？那就是信息增益准则。

何为信息增益？首先，介绍信息论中熵的概念。

熵度量了随机变量的不确定性，越不确定的事物，它的熵就越大。具体的，随机变量X的熵定义如下：

技术分享图片

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵为H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

技术分享图片

信息增益表示在已知特征X的情况下，而使得Y的信息的不确定性减少的程度。信息增益的定义式如下：

技术分享图片

g(D,A)表示特征A对训练集D的信息增益，其为集合D的经验熵H(D)与在特征A给定条件下D的经验条件熵H(D|A)之差。一般熵与条件熵之差，称为互信息。在决策树中，信息增益就等价于训练数据集中的类与特征的互信息。

具体信息增益的计算

（1）计算数据集D的经验熵H(D)

技术分享图片

(2)计算特征A对数据集D的经验条件熵H(D|A）：

技术分享图片

（3）计算信息增益

技术分享图片

（二）ID3算法

ID3算法以信息增益作为选择特征的准则

输入：训练数据集D，特征集A（可以从训练集中提取出来），阀值ε（用来实现提前终止）；

（1）若当前节点中所有实例属于同一类C_k，则该结点作为叶子节点，并将类别C_k作为该结点的输出类；

（2）若A为空，则将当前结点作为叶子节点，并将数据集中数量最多的类作为该结点输出类；

（3）否则，计算所有特征的信息增益，若此时最大的信息增益小于阀值ε，则将当前结点作为叶子节点，并将数据集中数量最多的类作为该结点输出类；

（4）若当前的最大信息增益大于阀值ε，则将最大信息增益对应的特征A作为最优划分特征对数据集进行划分，根据特征A的取值将数据集划分为若干个子结点；

（5）对第i个结点，以Di为训练集，以Ai为特征集（之前用过的特征从特征集中去除），递归的调用前面的1- 4 步。

ID3算法的缺点：

（1）ID3算法会偏向于选择类别较多的属性（形成分支较多会导致信息增益大）

（2）ID3算法没有考虑连续值，对与连续值的特征无法进行划分

（3） ID3算法对于缺失值的情况没有做考虑。

（4）ID3算法只有树的生成，容易产生过拟合。

（5）ID3算法采用贪心算法，每次划分都是考虑局部最优化，而局部最优化并不是全局最优化，通常需对其进行剪枝，而决策树剪枝是对模型进行整体优化。

（三）C4.5算法

C4.5算法与ID3算法相似，不过在生成树的过程中，采用信息增益比来作为选择特征的准则。

增益比：

其中为特征熵，n为特征取值的数目。

C4.5算法的训练过程与ID3相似，见ID3算法。

C4.5其实是针对ID3算法的不足改进后的算法，采用信息增益比，是为了解决ID3算法会偏向于选择类别多的属性的问题。而对于ID3算法不能对连续值进行划分的问题，C4.5采用连续值特征离散化的。此外，C4.5还从以下两方面考虑了缺失值的问题：一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的处理。对于ID3存在的过拟合问题，C4.5采用了引进正则化系数，对决策树进行剪枝。

（四）CART算法

CART树既可以用于分类，也可以用于回归。CART树的生成过程同样包括特征选择，树的生成及剪枝。

与ID3，C4.5算法不同的是，首先，CART进行特征选择时，回归树用的平方误差最小化的准则，而对于分类树用基尼系数。对于平方误差好理解。主要介绍下分类时用的基尼系数，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。具体的，在分类问题中，假设有K个类别，第k个类别的概率为 $p_{k}$