决策树
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树相关的知识,希望对你有一定的参考价值。
决策树:
决策树很多任务都是为了数据中所蕴含的知识信息,在不熟悉的数据集合中提取出一系列规则,机器学习算法再使用规则。
1. 决策树的构造
我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集,几个数据子集就是决策点的分支。若某个分支下的数据属于同一类型则不需要进一步的数据集分割,否则重复划分数据子集的过程。划分子集和原始数据的算法和方法一样,目的就是将相同的数据类型放到一个数据子集。
1.1 信息论划分数据集 (这里用ID3算法划分数据集)
组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学
划分数据的最大原则是:将无序变为更加有序。
第一次对于根据哪个特征值划分划分?
1.2 信息增益
信息增益定义:在划分数据集之前之后信息发生的变化 。知道它就可以根据信息增益,获取信息增益最高的特征是最好的选择。
信息增益计算:集合信息的度量称为香农熵(熵)
信息的定义:,其中p(xi)是选择该分类的概率。
熵是信息的期望值:
以上是关于决策树的主要内容,如果未能解决你的问题,请参考以下文章