机器学习算法之决策树

Posted 2020-09-28 芳华岁月

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习算法之决策树相关的知识，希望对你有一定的参考价值。

一.简介

　　决策树的一个重要任务是理解数据中蕴含的知识信息。

决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能产生过度匹配的问题。

适用数据类型：数值型和标称型。

二. 决策树的一般流程

1.收集数据：可以使用任何方法。

2.准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。

3.分析数据：可以使用任何方法，构造树完成后，应该检查图形是否符合预期标准。

4.训练算法：构造树的结构

5.测试算法：使用经验树计算错误率。

6.使用算法：此步骤使用于任何监督学习算法，使用决策树可以更好的理解数据的内在含义。

三.决策树的表示法

　　决策树通过把实例从艮节点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试，并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始，测试这个结点的属性，然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新结点的根的子树上重复。

决策树对应表达式：

四.基本的决策树学习算法

1. ID3算法

通过自顶向下构造决策树来进行学习。构造过程是从“哪一个属性将在树的根结点被测试？”这个问题开始的。为了回答这个问题，使用统计测试来确定每一个实例属性单独分类训练样例的能力。分类能力最好的属性被选作树的根结点的测试。然后为根节点属性的每个可能值产生一个分支，并把训练样例排列到适当的分支之下。然后重复整个过程，用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。这形成了对合格决策树的贪婪搜索（greedy search），也就是算法从不回溯重新考虑原来的选。

专门用于学习布尔函数的ID3算法概要

ID3(Examples,Target_attribute,Attributes)

Examples即训练样例集。Target_attribute是这棵树要测试的目标属性。Attributes是除目标属性外供学习到的决策树测试的属性列表。返回一棵能正确分类给定Examples的决策树。

•如果Examples都为正，那么返回label=+的单结点树Root

•如果Examples都为反，那么返回label=+的单结点树Root

•如果Attributes为空，那么返回单结点树Root，label=Examples中最普遍的Target_attribute的值

•否则开始

•A←Attributes中分类Examples能力最好的属性

•Root的决策属性←A

•对于A的每个可能值v_i

•在Root下加一个新的分支对应测试A=v_i

•令Examples _vi为Examples中满足A属性值为v_i的子集