决策树算法——计算步骤示例

Posted chenlu-vera

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树算法——计算步骤示例相关的知识,希望对你有一定的参考价值。

使用决策树算法手动计算GOLF数据集
技术分享图片

步骤:

1、通过信息增益率筛选分支。

(1)共有4个自变量,分别计算每一个自变量的信息增益率。

首先计算outlook的信息增益。outlook的信息增益Gain(outlook)=

技术分享图片

其中,v是可能取值的集合(本例中,outlook可以取3个值),D表示整个数据集,Dv是outlook取值为v的样本集合,而|*|表示数据集的大小(其中的样本数量)。

 其中Entropy(PlayGolf? in D)为最终因变量PlayGolf的信息熵值。计算过程为:

PlayGolf共有2种结果:YES(9个观测值)、NO(5个观测值)

YES出现的概率为9/14,NO出现的概率为5/14。

根据熵值计算公式:

技术分享图片

其中c=2(PlayGolf有2个取值YES和NO)。

p1=9/14,p2=5/14.

技术分享图片

 

其次计算根据outlook对数据进行分类,加权计算PlayGolf的信息熵

技术分享图片

中D表示了1-14全部的PlayGolf数值,但是可以根据outlook的取值不同将1-14行数据,分为3类:Sunny、Overcast、Rainy。

D1表示了为Sunny的PlayGolf的数值。

技术分享图片

计算D1的中playgolf的信息熵。同理计算D2,D3数据集的PlayGolf信息熵。

技术分享图片

 技术分享图片

 

 计算属性Outlook的信息增益Gain(Outlook)=0.940-0.694=0.246

信息增益率为:技术分享图片

 Outlook的信息增益已经有了,现在计算Outlook的熵。

技术分享图片

计算Outlook的信息增益率

 技术分享图片

同理计算其他属性的信息增益率。

 

 

 

 

 

以上是关于决策树算法——计算步骤示例的主要内容,如果未能解决你的问题,请参考以下文章

决策树算法

机器学习之决策树

决策树 -- ID3算法小结

决策树算法 CART和C4.5决策树有啥区别?各用于啥领域?

实验四 决策树算法及应用

决策树算法的介绍