决策树算法
Posted guodavid
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树算法相关的知识,希望对你有一定的参考价值。
这两篇文章(上,下)已经总结得很好了
http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html
1. 数学基础
1.信息论的信息熵:Entropy
2.基尼不纯度:Gini impurity
2. 类型
常见三种决策树算法:决策树ID3算法, 决策树C4.5算法, CART分类树算法
ID3算法是用信息增益大小来判断当前节点应该用什么特征来构建决策树
ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题
C4.5算法使用信息增益比的变量IR(X,Y),它是信息增益和特征熵的比值
CART算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的
以上是关于决策树算法的主要内容,如果未能解决你的问题,请参考以下文章