决策树

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树相关的知识,希望对你有一定的参考价值。

决策树:

  决策树很多任务都是为了数据中所蕴含的知识信息,在不熟悉的数据集合中提取出一系列规则,机器学习算法再使用规则。 

1. 决策树的构造

  我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集,几个数据子集就是决策点的分支。若某个分支下的数据属于同一类型则不需要进一步的数据集分割,否则重复划分数据子集的过程。划分子集和原始数据的算法和方法一样,目的就是将相同的数据类型放到一个数据子集。

  1.1 信息论划分数据集 (这里用ID3算法划分数据集)

    组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学 

    划分数据的最大原则是:将无序变为更加有序。

            第一次对于根据哪个特征值划分划分?

  1.2 信息增益

    信息增益定义:在划分数据集之前之后信息发生的变化 。知道它就可以根据信息增益,获取信息增益最高的特征是最好的选择。

    信息增益计算:集合信息的度量称为香农熵(熵)

            信息的定义:技术分享图片,其中p(xi)是选择该分类的概率。

    熵是信息的期望值:技术分享图片

 

 

 
 

以上是关于决策树的主要内容,如果未能解决你的问题,请参考以下文章

决策树算法总结

决策树算法

决策树算法

决策树结构

【理论篇】决策树剪枝策略

决策树特征重要性