决策树细节
Posted yjybupt
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树细节相关的知识,希望对你有一定的参考价值。
https://zhuanlan.zhihu.com/p/85374168
基尼指数gini index本身是一个概念,它可以用来描述集合里面分类的混乱程度,和信息熵的意义非常接近,用泰勒展开可以得到是信息熵的近似值。
它可以用来描述很多个分类的集合,不光是2分类。
但是如果应用在CART树上,因为CART树是二叉树,尽分为a和非a,所以CART树上,gini index最大是1-0.5**2-0.5**2=0.5, 基尼指数越大,表明不确定性越高。最小是0.
而如果多分类的情况下,最大就不是0.5,而是
- Perfectly classified, Gini Index would be zero.
- Evenly distributed would be 1 – (1/# Classes).
以上是关于决策树细节的主要内容,如果未能解决你的问题,请参考以下文章
在决策树类相关算法中,一个接点的基尼系数通常是大于还是小于他的父节点?是总是大于还是总是小于?