决策树

Posted 2021-12-02 zhgmen

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了决策树相关的知识，希望对你有一定的参考价值。

树的划分流程

理解树，就需要理解几个关键词：根节点、父节点、子节点和叶子节点。

父节点和子节点是相对的，说白了子节点由父节点根据某一规则分裂而来，然后子节点作为新的父亲节点继续分裂，直至不能分裂为止。而根节点是没有父节点的节点，即初始分裂节点，叶子节点是没有子节点的节点

决策树的做法是每次选择一个属性进行判断，如果不能得出结论，继续选择其他属性进行判断，直到能够“肯定地”判断出用户的类型或者是上述属性都已经使用完

步骤1：将所有的数据看成是一个节点，进入步骤2；

步骤2：从所有的数据特征中挑选一个数据特征对节点进行分割，进入步骤3；

步骤3：生成若干孩子节点，对每一个孩子节点进行判断，如果满足停止分裂的条件，进入步骤4；否则，进入步骤2；

步骤4：设置该节点是子节点，其输出的结果为该节点数量占比最大的类别。

树如何进行划分

根据决策树的输出结果，决策树可以分为分类树和回归树，分类树输出的结果为具体的类别，而回归树输出的结果为一个确定的数值。

　　决策树的构建算法主要有ID3、C4.5、CART三种，其中ID3和C4.5是分类树，CART是分类回归树，将在本系列的ID3、C4.5和CART中分别讲述。

　　其中ID3是决策树最基本的构建算法，而C4.5和CART是在ID3的基础上进行优化的算法。

决策生成过程中有两个重要的问题：

（1）数据如何分割

分裂属性的数据类型分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点；对于连续性属性，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。

（2）如何选择分裂的属性

选择分裂属性是要找出能够使所有孩子节点数据最纯的属性，决策树使用信息增益或者信息增益率作为选择属性的依据。

用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值，计算公式表示为：

　　　　　　　　技术图片　　

其中Gain表示节点的复杂度，Gain越高，说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和，信息增益越大，分裂后的复杂度减小得越多，分类的效果越明显。

节点的复杂度可以用以下两种不同的计算方式：

　　a）熵

　　熵描述了数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高。熵的计算公式如下所示：

　　　　　　　　技术图片　　　　　　　　　　

　　其中Pi表示类i的数量占比。以二分类问题为例，如果两类的数量相同，此时分类节点的纯度最低，熵等于1；如果节点的数据属于同一类时，此时节点的纯度最高，熵等于0。

　　b）基尼值

　　基尼值计算公式如下：

　　　　　　　　　　　　技术图片

　　其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例，当两类数量相等时，基尼值等于0.5 ；当节点数据属于同一类时，基尼值等于0 。基尼值越大，数据越不纯。

（2）信息增益率

使用信息增益作为选择分裂的条件有一个不可避免的缺点：倾向选择分支比较多的属性进行分裂。为了解决这个问题，引入了信息增益率这个概念。信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益（听起来很拗口），其计算公式如下：

　　　　　　技术图片

其中技术图片表示信息增益，表示分裂子节点数据量的信息增益，其计算公式为：

技术图片

其中m表示子节点的数量，技术图片表示第i个子节点的数据量，N表示父节点数据量，说白了，其实是分裂节点的熵，如果节点的数据链越接近，越大，如果子节点越大，越大，而就会越小，能够降低节点分裂时选择子节点多的分裂属性的倾向性。信息增益率越高，说明分裂的效果越好。

（3）什么时候停止分裂

决策树不可能不限制地生长，总有停止分裂的时候，最极端的情况是当节点分裂到只剩下一个数据点时自动结束分裂，但这种情况下树过于复杂，而且预测的经度不高。一般情况下为了降低决策树复杂度和提高预测的经度，会适当提前终止节点的分裂。

　　以下是决策树节点停止分裂的一般性条件：

　　（1）最小节点数

　　当节点的数据量小于一个指定的数量时，不继续分裂。两个原因：一是数据量较少时，再做分裂容易强化噪声数据的作用；二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

　　（2）熵或者基尼值小于阀值。

由上述可知，熵和基尼值的大小表示数据的复杂程度，当熵或者基尼值过小时，表示数据的纯度比较大，如果熵或者基尼值小于一定程度数，节点停止分裂。

　　（3）决策树的深度达到指定的条件

　节点的深度可以理解为节点与决策树跟节点的距离，如根节点的子节点的深度为1，因为这些节点与跟节点的距离为1，子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度，当深度到达指定的上限大小时，停止分裂。

　　（4）所有特征已经使用完毕，不能继续进行分裂。

被动式停止分裂的条件，当已经没有可分的属性时，直接将当前节点设置为叶子节点。

对抗过拟合的手段

决策树的剪枝

决策树的剪枝有两种思路：预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）

预剪枝（Pre-Pruning）

在构造决策树的同时进行剪枝。所有决策树的构建方法，都是在无法进一步降低熵的情况下才会停止创建分支的过程，为了避免过拟合，可以设定一个阈值，熵减小的数量小于这个阈值，即使还可以继续降低熵，也停止继续创建分支。但是这种方法实际中的效果并不好。

后剪枝（Post-Pruning）

决策树构造完成后进行剪枝。剪枝的过程是对拥有同样父节点的一组节点进行检查，判断如果将其合并，熵的增加量是否小于某一阈值。如果确实小，则这一组节点可以合并一个节点，其中包含了所有可能的结果。后剪枝是目前最普遍的做法。后剪枝的剪枝过程是删除一些子树，然后用其叶子节点代替，这个叶子节点所标识的类别通过大多数原则(majority class criterion)确定。所谓大多数原则，是指剪枝过程中, 将一些子树删除而用叶节点代替,这个叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识,所标识的类称为majority class ，（majority class 在很多英文文献中也多次出现）。

如何处理连续值，缺失值

1.直接删除----适合缺失值数量较小，并且是随机出现的，删除它们对整体数据影响不大的情况

2.使用一个全局常量填充---譬如将缺失值用“Unknown”等填充，但是效果不一定好，因为算法可能会把它识别为一个新的类别，一般很少用

3.使用均值或中位数代替----优点：不会减少样本信息，处理简单。缺点：当缺失数据不是随机数据时会产生偏差.对于正常分布的数据可以使用均值代替，如果数据是倾斜的，使用中位数可能更好。

4.插补法

　　1）随机插补法----从总体中随机抽取某个样本代替缺失样本

　　2）多重插补法----通过变量之间的关系对缺失数据进行预测，利用蒙特卡洛方法生成多个完整的数据集，在对这些数据集进行分析，最后对分析结果进行汇总处理

　　3）热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本（匹配样本），利用其中的观测值对缺失值进行插补。

　　　　优点：简单易行，准去率较高

　　　　缺点：变量数量较多时，通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层，在层中对缺失值实用均值插补

　　4)拉格朗日差值法和牛顿插值法（简单高效，数值分析里的内容，数学公式以后再补 = =）

5.建模法

可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如，利用数据集中其他数据的属性，可以构造一棵判定树，来预测缺失值的值。

各种决策树之间的比较

ID3算法有几个缺点：

对于具有很多值的属性它是非常敏感的，例如，如果我们数据集中的某个属性值对不同的样本基本上是不相同的，甚至更极端点，对于每个样本都是唯一的，如果我们用这个属性来划分数据集，它会得到很大的信息增益，但是，这样的结果并不是我们想要的。
ID3算法不能处理具有连续值的属性。
ID3算法不能处理属性具有缺失值的样本。
由于按照上面的算法会生成很深的树，所有容易产生过拟合现象。

对于具有很多值的属性，ID3算法是非常敏感的。而C4.5算法用增益率（Gain ratio）解决了这个问题。在给出增益率的定义之前，我先给出关于内在价值（Intrinsic Value）的定义：

IV(Ex,a)=−∑v∈values(a)|{x∈Ex|value(x,a)=v}||Ex|∗log2(|{x∈Ex|value(x,a)=v}||Ex|)
IV(Ex,a)=−∑v∈values(a)|{x∈Ex|value(x,a)=v}||Ex|∗log2?(|{x∈Ex|value(x,a)=v}||Ex|)
增益率的定义如下：
IGR(Ex,a)=IG(Ex,a)IV(Ex,a)
IGR(Ex,a)=IG(Ex,a)IV(Ex,a)
假设我们要构建一个决策树来分类公司的客户，那么其中的一个属性可能是客户的信用卡号，这个属性具有很高的信息增益，因为它唯一标识每个客户。但是，我们并不想在决策树中包含这个属性，这是因为它虽然在训练集上表现地很好，而对于没见过的样本它是不可能表现好的。

但是，如果我们用增益率来作为度量的手段，我们可以很好地避免这个问题。也就是说，对于客户的信用卡号这个属性，虽然你的信息增益很大，但是同时你的内在价值也很大，因此你的增益率不会太大。

ID3算法不能处理具有连续值的属性。而C4.5算法很好地解决了这个问题。下面，我举例说明一下它的解决方式。假设训练集中每个样本的某个属性为：{65, 70, 70, 70, 75, 78, 80, 80, 80, 85, 90, 90, 95, 96}。现在我们要计算这个属性的信息增益。我们首先要移除重复的值并对剩下的值进行排序：{65, 70, 75, 78, 80, 85, 90, 95, 96}。接着，我们分别求用每个数字拆分的信息增益（比如用65做拆分：用≤65和>65≤65和>65做拆分，其它数字同理），然后找出使信息增益获得最大的拆分值。因此，C4.5算法很好地解决了不能处理具有连续值属性的问题。

C5.0是一个商业软件，对于公众是不可得到的。它是在C4.5算法做了一些改进

C5.0主要增加了对Boosting的支持，它同时也用更少地内存。它与C4.5算法相比，它构建了更小地规则集，因此它更加准确。

CART (Classification and Regression Trees)与C4.5算法是非常相似的，但是CART支持预测连续的值（回归）。CART构建二叉树，而C4.5则不一定。

CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树，从而使训练误差和测试误差达到一个很好地平衡点。

以上是关于决策树的主要内容，如果未能解决你的问题，请参考以下文章