决策树细节

Posted yjybupt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树细节相关的知识,希望对你有一定的参考价值。

https://zhuanlan.zhihu.com/p/85374168

 

基尼指数gini index本身是一个概念,它可以用来描述集合里面分类的混乱程度,和信息熵的意义非常接近,用泰勒展开可以得到是信息熵的近似值。

它可以用来描述很多个分类的集合,不光是2分类。

但是如果应用在CART树上,因为CART树是二叉树,尽分为a和非a,所以CART树上,gini index最大是1-0.5**2-0.5**2=0.5, 基尼指数越大,表明不确定性越高。最小是0.

 

而如果多分类的情况下,最大就不是0.5,而是

  • Perfectly classified, Gini Index would be zero.
  • Evenly distributed would be 1 – (1/# Classes).

以上是关于决策树细节的主要内容,如果未能解决你的问题,请参考以下文章

决策树算法原理

sklearn实现决策树算法

在决策树类相关算法中,一个接点的基尼系数通常是大于还是小于他的父节点?是总是大于还是总是小于?

决策树是啥东东?

决策树ID3决策树C4.5决策树CARTCART树的生成树的剪枝从ID3到CART从决策树生成规则决策树优缺点

决策树算法总结