决策树
Posted ttzz
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树相关的知识,希望对你有一定的参考价值。
本章主要对决策树算法进行了讲解,主要有决策树的生成过程、决策树的划分选择、决策树的剪枝处理、连续与缺失值的处理以及多变量决策树。
4.1 基本流程
决策树是基于树的结构来进行决策的。包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果,其他每个结点对应于一个属性测试。
决策树学习的目的是产生一颗泛化能力强的决策树,其基本流程遵循简单的“分而治之”策略。
决策树学习的基本算法
输入:训练集D = (x1,y1),(x2,y2),...,(xn,yn); 属性集 A = a1,a2,...,ad 过程:函数TreeGenerate(D,A) 1.生成结点node; if D中样本全属于同一类别C then 将node标记为C类叶节点;return; end if; if A = 空集 OR D中样本在A上取值相同 then 将node标记为叶节点,其类别标记为D中样本数最多的类;return end if 从A中选择最有划分属性a*; for a* 的每一个值 av do 为node生成一个分支;令Dv表示D中在a*上取值为av的样本子集; if Dv为空 then 将分支结点标记为叶节点,其类别标记为D中样本最多的类;return else 以TreeGenerate(Dv,A\a*)为分支结点 end if end for 输出:以node为根节点的一棵决策树。 |
4.2划分选择
我们希望决策树分支结点所包含的样本尽可能属于同一类别。
4.2.1 信息增益
“信息熵”-----度量样本纯度的指标,信息熵值越小,纯度越高。
以上是关于决策树的主要内容,如果未能解决你的问题,请参考以下文章