决策树的理解

Posted 2020-10-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了决策树的理解相关的知识，希望对你有一定的参考价值。

决策树的分类速度快
决策树有个步骤：特征选择，决策树生成，和决策树的修剪。
特许选择：在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上任掉这些的特征对决策树学习的精度影响。
通常特征选择的准则是信息增益，或信息增益比。
在学习信息增益的时候，首先是要了解一个概念：熵(entropy)是表示随机变量不确定的度量，
信息越少，越是不确定，熵也就会越大。熵的公式为H(x)=-sum(pi*logpi)(i=1,2....n)
熵的取值只依赖于x的分布，并不是x越大，熵就越大，等。
信息增益 g(D,A)特征A对训练集D的信息增益==H(D)-H(D/A)之差。又称互信息。

信息增益存在一定的问题，往往偏向于选择取值较多的特征的问题

后人又提出信息增益比: gr(D,A)=g(D,A)/Ha(D)意思就是A在特征D上的信息增益比上A的信息熵。

ID3,C4.5算法的生成不再这讲

决策树生成算法递归地产生决策树，直到不能继续下去为止。模型复杂，这样产生的树往往对训练数据的分类很正确，但是往往会出现过拟合现象，降低模型复杂度，就是对决策树进行剪枝。

CART回归树。

本文出自 “简答生活” 博客，谢绝转载！

以上是关于决策树的理解的主要内容，如果未能解决你的问题，请参考以下文章