EduCoder 机器学习决策树

Posted 2021-07-06 Alex Hub

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了EduCoder 机器学习决策树相关的知识，希望对你有一定的参考价值。

决策树说通俗点就是一棵能够替我们做决策的树，或者说是我们人类在要做决策时脑回路的一种表现形式。

本实训项目的主要内容是基于 python 语言搭建出决策树模型对数据分类，并使用 sklearn 的决策时模型对鸢尾花数据进行分类。

第1关：什么是决策树

任务描述
相关知识
- 引例
- 决策树的相关概念
编程要求
测试说明

任务描述

本关任务：根据本节课所学知识完成本关所设置的选择题。

编号	瓤是否够红	够不够冰	是否便宜	是否有籽
1	是	否	是	否
2	是	是	否	是
3	否	是	是	否

编程要求

根据本关所学习到的知识，完成所有选择题。

测试说明

平台会对你的选项进行判断，如果实际输出结果与预期结果相同，则通关；反之，则 GameOver。

开始你的任务吧，祝你成功！

1、下列说法正确的是？（AB）

A、

训练决策树的过程就是构建决策树的过程

B、

ID3算法是根据信息增益来构建决策树

C、

C4.5算法是根据基尼系数来构建决策树

D、

决策树模型的可理解性不高
2、下列说法错误的是？（B）

A、

从树的根节点开始，根据特征的值一步一步走到叶子节点的过程是决策树做决策的过程

B、

决策树只能是一棵二叉树

C、

根节点所代表的特征是最优特征

任务描述

本关任务：掌握什么是信息增益，完成计算信息增益的程序设计。

相关知识

为了完成本关任务，你需要掌握：

信息熵；
条件熵；
信息增益。

信息熵

信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。

直到1948年，香农提出了“信息熵”的概念，才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信源的不确定性越大，信息熵也越大。

从机器学习的角度来看，信息熵表示的是信息量的期望值。如果数据集中的数据需要被分成多个类别，则信息量 $I (x_{i})$ 的定义如下(其中 $x_{i}$ 表示多个类别中的第i个类别， $p (x_{i})$ 数据集中类别为 $x_{i}$ 的数据在数据集中出现的概率表示)：

$I (X_{i}) = - l o g_{2} p (x_{i})$

由于信息熵是信息量的期望值，所以信息熵H(X)的定义如下(其中n为数据集中类别的数量)：

$H (X) = - s u m_{i = 1 n} p (x_{i}) l o g_{2} p (x_{i})$

从这个公式也可以看出，如果概率是0或者是1的时候，熵就是0（因为这种情况下随机变量的不确定性是最低的）。那如果概率是0.5，也就是五五开的时候，此时熵达到最大，也就是1。（就像扔硬币，你永远都猜不透你下次扔到的是正面还是反面，所以它的不确定性非常高）。所以呢，熵越大，不确定性就越高。

条件熵

在实际的场景中，我们可能需要研究数据集中某个特征等于某个值时的信息熵等于多少，这个时候就需要用到条件熵。条件熵H(Y|X)表示特征X为某个值的条件下，类别为Y的熵。条件熵的计算公式如下：

$H (Y ∣ X) = s u m_{i = 1 n} p_{i} H (Y ∣ X = x_{i})$

当然条件熵的性质也和熵的性质一样，概率越确定，条件熵就越小，概率越五五开，条件熵就越大。

信息增益

现在已经知道了什么是熵，什么是条件熵。接下来就可以看看什么是信息增益了。所谓的信息增益就是表示我已知条件X后能得到信息Y的不确定性的减少程度。

就好比，我在玩读心术。你心里想一件东西，我来猜。我已开始什么都没问你，我要猜的话，肯定是瞎猜。这个时候我的熵就非常高。然后我接下来我会去试着问你是非题，当我问了是非题之后，我就能减小猜测你心中想到的东西的范围，这样其实就是减小了我的熵。那么我熵的减小程度就是我的信息增益。

所以信息增益如果套上机器学习的话就是，如果把特征A对训练集D的信息增益记为g(D, A)的话，那么g(D, A)的计算公式就是：

$g (D, A) = H (D) - H (D, A)$

为了更好的解释熵，条件熵，信息增益的计算过程，下面通过示例来描述。假设我现在有这一个数据集，第一列是编号，第二列是性别，第三列是活跃度，第四列是客户是否流失的标签（0表示未流失，1表示流失）。

编号	性别	活跃度	是否流失
1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

假如要算性别和活跃度这两个特征的信息增益的话，首先要先算总的熵和条件熵。总的熵其实非常好算，就是把标签作为随机变量X。上表中标签只有两种（0和1）因此随机变量X的取值只有0或者1。所以要计算熵就需要先分别计算标签为0的概率和标签为1的概率。从表中能看出标签为0的数据有10条，所以标签为0的概率等于2/3。标签为1的概率为1/3。所以熵为：

$- (1 / 3) * l o g (1 / 3) - (2 / 3) * l o g (2 / 3) = 0.9182$

接下来就是条件熵的计算，以性别为男的熵为例。表格中性别为男的数据有8条，这8条数据中有3条数据的标签为1，有5条数据的标签为0。所以根据条件熵的计算公式能够得出该条件熵为：

$- (3 / 8) * l o g (3 / 8) - (5 / 8) * l o g (5 / 8) = 0.9543$

根据上述的计算方法可知，总熵为：

$- (5 / 15) * l o g (5 / 15) - (10 / 15) * l o g (10 / 15) = 0.9182$

性别为男的熵为：

$- (3 / 8) * l o g (3 / 8) - (5 / 8) * l o g (5 / 8) = 0.9543$

性别为女的熵为：

$- (2 / 7) * l o g (2 / 7) - (5 / 7) * l o g (5 / 7) = 0.8631$

活跃度为低的熵为：

$- (4 / 4) * l o g (4 / 4) - 0 = 0$

活跃度为中的熵为：

$- (1 / 5) * l o g (1 / 5) - (4 / 5) * l o g (4 / 5) = 0.7219$

活跃度为高的熵为：

$- 0 - (6 / 6) * l o g (6 / 6) = 0$

现在有了总的熵和条件熵之后就能算出性别和活跃度这两个特征的信息增益了。

性别的信息增益=总的熵-(8/15)*性别为男的熵-(7/15)*性别为女的熵=0.0064

*活跃度的信息增益=总的熵-(6/15)活跃度为高的熵-(5/15)*活跃度为中的熵-(4/15)*活跃度为低的熵=0.6776

那信息增益算出来之后有什么意义呢？回到读心术的问题，为了我能更加准确的猜出你心中所想，我肯定是问的问题越好就能猜得越准！换句话来说我肯定是要想出一个信息增益最大（减少不确定性程度最高）的问题来问你。其实ID3算法也是这么想的。ID3算法的思想是从训练集D中计算每个特征的信息增益，然后看哪个最大就选哪个作为当前结点。然后继续重复刚刚的步骤来构建决策树。

编程要求

根据提示，在右侧编辑器补充代码，完成calcInfoGain函数实现计算信息增益。

calcInfoGain函数中的参数:

feature：测试用例中字典里的feature，类型为ndarray；
label：测试用例中字典里的label，类型为ndarray；
index：测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。

测试说明

平台会对你编写的代码进行测试，期望您的代码根据输入来输出正确的信息增益，以下为其中一个测试用例：

测试输入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

预期输出： 0.419973

提示：计算log可以使用NumPy中的log2函数

开始你的任务吧，祝你成功！

import numpy as np


def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益，类型float
    '''

    #*********** Begin ***********#

    # 计算熵
    def calcInfoEntropy(feature, label):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :return:信息熵，类型float
        '''

        label_set = set(label)
        result = 0
        for l in label_set:
            count = 0
            for j in range(len(label)):
                if label[j] == l:
                    count += 1
            # 计算标签在数据集中出现的概率
            p = count / len(label)
            # 计算熵
            result -= p * np.log2(p)
        return result

    # 计算条件熵
    def calcHDA(feature, label, index, value):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :param index:需要使用的特征列索引，类型为int
        :param value:index所表示的特征列中需要考察的特征值，类型为int
        :return:信息熵，类型float
        '''
        count = 0
        # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
        sub_feature = []
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                count += 1
                sub_feature.append(feature[i])
                sub_label.append(label[i])
        pHA = count / len(feature)
        e = calcInfoEntropy(sub_feature, sub_label)
        return pHA * e

    base_e = calcInfoEntropy(feature, label)
    f = np.array(feature)
    # 得到指定特征列的值的集合
    f_set = set(f[:, index])
    sum_HDA = 0
    # 计算条件熵
    for value in f_set:
        sum_HDA += calcHDA(feature, label, index, value)
    # 计算信息增益
    return base_e - sum_HDA
    #*********** End *************#

第3关：使用ID3算法构建决策树

任务描述
相关知识
- ID3算法
- 使用决策树进行预测
编程要求
测试说明

任务描述

本关任务：补充python代码，完成DecisionTree类中的fit和predict函数。

瓤是否够红	够不够冰	是否便宜	是否有籽
是	否	是	否

编程要求

填写fit(self, feature, label)函数，实现ID3算法，要求决策树保存在self.tree中。其中：

feature：训练集数据，类型为ndarray，数值全为整数；
label：训练集标签，类型为ndarray，数值全为整数。

填写predict(self, feature)函数，实现预测功能，并将标签返回，其中：

feature：测试集数据，类型为ndarray，数值全为整数。（PS：feature中有多条数据）

测试说明

只需完成fit与predict函数即可，程序内部会调用您所完成的fit函数构建模型并调用predict函数来对数据进行预测。预测的准确率高于0.92视为过关。(PS:若self.tree is None则会打印决策树构建失败)

开始你的任务吧，祝你成功！

import numpy as np
class DecisionTree(object):
    def __init__(self):
        #决策树模型
        self.tree = {}
    def calcInfoGain(self, feature, label, index):
        '''
        计算信息增益
        :param feature:测试用例中字典里的feature，类型为ndarray
        :param label:测试用例中字典里的label，类型为ndarray
        :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
        :return:信息增益，类型float
        '''
        # 计算熵
        def calcInfoEntropy(label):
            '''
            计算信息熵
            :param label:数据集中的标签，类型为ndarray
            :return:信息熵，类型float
            '''
            label_set = set(label)
            result = 0
            for l in label_set:
                count = 0
                for j in range(len(label)):
                    if label[j] == l:
                        count += 1
                # 计算标签在数据集中出现的概率
                p = count / len(label)
                # 计算熵
                result -= p * np.log2(p)
            return result
        # 计算条件熵
        def calcHDA(feature, label, index, value):
            '''
            计算信息熵
            :param feature:数据集中的特征，类型为ndarray
            :param label:数据集中的标签，类型为ndarray
            :param index:需要使用的特征列索引，类型为int
            :param value:index所表示的特征列中需要考察的特征值，类型为int
            :return:信息熵，类型float
            '''
            count = 0
            # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
            sub_feature = []
            sub_label = []
            以上是关于EduCoder 机器学习 决策树的主要内容，如果未能解决你的问题，请参考以下文章 
 机器学习_决策树Python代码详解
 决策树代码《机器学习实战》
 机器学习-决策树
 机器学习-------决策树算法
 机器学习-决策树
 机器学习算法学习02：决策树的学习以及应用决策树解决Cora数据集论文分类问题

编号	性别	活跃度	是否流失
1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

编号	性别	活跃度	是否流失
1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

EduCoder 机器学习 决策树

第1关：什么是决策树

任务描述

相关知识

引例

决策树的相关概念

编程要求

测试说明

第2关：信息熵与信息增益

任务描述

相关知识

信息熵

条件熵

信息增益

编程要求

测试说明

第3关：使用ID3算法构建决策树

任务描述

相关知识

ID3算法

使用决策树进行预测

编程要求

测试说明

EduCoder 机器学习决策树

编号	性别	活跃度	是否流失
1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0