决策树
Posted ZJun310
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树相关的知识,希望对你有一定的参考价值。
第四章 决策树
基本思想
决策树是基于树结构来进行决策的,这正是人类在面临决策问题时一种很自然的处理机制
一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他的每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。
Wikipedia: A decision tree is a flowchart-like structure in which each internal node represents a “test” on an attribute (e.g. whether a coin flip comes up heads or tails), each branch represents the outcome of the test and each leaf node represents a class label (decision taken after computing all attributes). The paths from root to leaf represents classification rules.
Example:
度量值
信息熵(Information Entropy)
信息熵是度量样本集合纯度最常用的一种指标
Wikipedia: Information entropy is a concept from information theory. It tells how much information there is in an event. In general, the more uncertain or random the event is, the more information it will contain. The concept of information entropy was created by mathematician Claude Shannon.
假定当前样本集合D中第k类样本所占的比例为
pk(k=1,2,…,|y|)
,则D的信息熵定义为
Entropy(D) 的值越小,则D的纯度越高
信息增益(Information Gain)
信息增益为总的熵减去某个分类标准对应的熵
假定属性a有V个可能的取值
a1,a2,a3,…,aV
,若使用a来对样本集合D进行划分,可以的到V个样本子集
D1,D2,D3,…,DV
,每个样本子集对应到一个分支节点上,考虑到不同分支节点样本数量不同,我们给每个子节点定义权重
|Dv|/|D|
,于是我们可以计算出用属性a对D进行划分所获的的信息增益
一般而言,信息增益越大,则表明使用属性a来划分所获得的纯度提升越大。
选择属性时的目标函数
增益率(Gain Ratio)
信息增益有一个缺点,它对取值数目较多的属性有所偏好,为了减少这种偏好的影响,我们引入增益率
其中
IV(a)=−∑v=1V|Dv||D|·log2|Dv||D|
IV(a) 称为属性a的固有值(Intrinsic value)属性a的可能取值越多,那个 IV(a) 的值通常越大
Note! 增益率准则对可取值数目较少的属性有所偏好,因此实际中,我们先从候选划分属性中找出信息增益高于平均水平的属性,再从中选出增益率最高的
基尼指数(Gini Index)
数据集D的纯度可以用基尼指数来度量,定义如下