构建决策树

Posted Debroon

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了构建决策树相关的知识,希望对你有一定的参考价值。

构建决策树

 


决策树

决策树,是通过数据归纳,总结出条件判断的学习模式。

如果新来一位男生/客户/面试者,根据上面的树状图就可以作出是否见面/贷款/入职的决定,所以该树状图就称决策树。

决策树解决问题就是这样,天然的可以解决多分类问题,当然回归问题也可以。

那怎么构建一棵决策树呢?

  • 决策树在哪种节点做划分?
  • 划分的值是什么?
     

信息熵划分

我们可以通过信息熵来划分。

  • 熵:衡量信息的不确定程度
  • 熵越大,不确定性越大
  • 熵越小,不确定性越小

熵的计算公式:

  • k k k:一个系统中有 k 种分类
  • p i p_i pi:某种分类所占的比例

熵公式的意思是:

  • 一个系统中状态数量越多(可能性越多),不确定性越大。

比如买彩票的不确定性,要比抛硬币的不确定性大。只有一个类别时,熵为 0。

  • 在状态数量不变的情况下,各个状态的可能性相同,不确定很大。

比如抛硬币是二选一,不确定性很大。可如果硬币一面重、一面轻,就有规律可寻,不确定性会小很多。
 

信息增量:衡量每一条信息价值的尺度,这个值越大,信息越有用。

 
我们的划分思路是,让可能性变少,划分后使得整体的信息熵降低,变得更加确定。

 


基尼系数划分

我们可以通过基尼系数来划分。

 


调用 CART

CART 是基尼系数实现的,基尼系数没有 l o g log log 计算比信息熵更快。

以上是关于构建决策树的主要内容,如果未能解决你的问题,请参考以下文章

在决策树类相关算法中,一个接点的基尼系数通常是大于还是小于他的父节点?是总是大于还是总是小于?

决策树算法之鸢尾花特征分类可视化详解机器学习

构建决策树

决策树

决策树构建

机器学习之树模型