实验三：CART分类决策树python实现（两个测试集）|机器学习

Posted 2022-02-03 桃陉

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了实验三：CART分类决策树python实现（两个测试集）|机器学习相关的知识，希望对你有一定的参考价值。

python实现

分步

划分数据子集（注意区分离散特征值和连续特征值）

#获取数据子集，分类与回归的做法相同
#将数据集根据划分特征切分为两类
def split_dataset(data_x,data_y,fea_axis,fea_value):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
          fea_axis(int):进行划分的特征编号（列数）
          fea_value(int):进行划分的特征对应特征值
    output:data_x[equal_Idx],data_y[equal_Idx](ndarry):特征值等于（大于等于）目标特征值的样本与标签
           data_x[nequal_Idx],data_y[nequal_Idx](ndarry):特征值不等于（小于）目标特征的样本与标签
    '''
    if  isinstance(fea_value,float): 
        #如果特征值为浮点数(连续特征值)，那么进行连续值离散化
        equal_Idx = np.where(data_x[:,fea_axis]>=fea_value) #找出特征值大于等于fea_alue的样本序号
        nequal_Idx = np.where(data_x[:,fea_axis]<fea_value) #找出特征值小于fea_alue的样本序号
    else:
        equal_Idx = np.where(data_x[:,fea_axis]==fea_value) #找出特征值等于fea_alue的样本序号
        nequal_Idx = np.where(data_x[:,fea_axis]!=fea_value) #找出特征值不等于fea_alue的样本序号
    return data_x[equal_Idx],data_y[equal_Idx],data_x[nequal_Idx],data_y[nequal_Idx]

求解基尼系数（在该数据集相下，随机抽取两个样本，标签不同的概率）

#使用决策树进行分类需要用到
#求解基尼系数,即两个样本不属于同一标签的概率（二分类问题）
def cal_gini(data_y):
    '''
    input:data_y(ndarry):标签值
    output:gini(float):基尼指数
    '''
    m = len(data_y)  #全部样本的标签数量
    labels = np.unique(data_y) #获得不同种类的标签（去重）
    gini = 1.0  #最后返回的基尼指数
    for label in labels:
        ans = data_y[np.where(data_y[:]==label)].size/m  #该标签的出现概率
        gini -= ans*ans  #累减计算基尼指数（两两不同的总概率）
    return gini

最优特征选取以及特征值划分（遍历计算每个特征下每个特征值的基尼系数，取最小值（纯度最高）进行划分标准）

#分类方法实现最优特征的选取以及特征值划分
def classify_get_best_fea(data_x,data_y):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
    output:best_fea(int):最优特征
           best_fea_val(int):最优特征值
    '''
    m,n = np.shape(data_x)  #m，n分别为样本数以及特征属性数
    #初始化
    best_fea = -1
    best_fea_val = -1
    min_fea_gini = np.inf
    
    for i in range(n):  #遍历所有特征（列）
        feas = np.unique(data_x[:,i])  #获得该特征下所有特征值
        #分别以每个特征值为中心进行划分求基尼系数，找到使基尼系数最小的划分
        for j in feas:
            equal_data_x,equal_data_y,nequal_data_x,nequal_data_y = split_dataset(data_x,data_y,i,j)
            fea_gini = 0.0
            #计算该划分下的基尼系数
            fea_gini = len(equal_data_y)/m*cal_gini(equal_data_y)+len(nequal_data_y)/m*cal_gini(nequal_data_y)
            #如果该划分方式的基尼系数更小（纯度更高），那么直接进行更新
            if fea_gini<min_fea_gini:
                min_fea_gini = fea_gini
                best_fea = i
                best_fea_val = j
        
    return best_fea,best_fea_val

创建分类决策树（使用递归的方法构建决策树字典，注意处理特殊情况：只有一类标签的情况，无特征的情况，当基尼系数过低时也可以中断划分）

#创建分类方法的决策树
def classify_create_tree(data_x,data_y,fea_label):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
          fea_label(list):特征属性列表
    output:my_tree(dict):生成的CART分类树
    '''
    labels = np.unique(data_y)
    #只有一个标签的情况
    if len(labels)==1:
        return data_y[0]
    #特征集为0的情况，采用多数投票的方法
    if data_x.shape[1]==0:
        best_fea,best_fea_num = 0,0
        for label in labels:
            num = data_y[np.where(data_y==label)].size
            if num>best_fea_num:
                best_fea = label
                best_fea_num = num
        return best_fea
    
    best_fea,best_fea_val = classify_get_best_fea(data_x,data_y)
    best_fea_label = fea_label[best_fea]
    print(u"此时最优索引为："+str(best_fea_label))
    my_tree = best_fea_label:
    
    #获得划分结果
    equal_data_x,equal_data_y,nequal_data_x,nequal_data_y = split_dataset(data_x,data_y,best_fea,best_fea_val)
    #删除最优特征
    equal_data_x = np.delete(equal_data_x,best_fea,1)
    nequal_data_x = np.delete(nequal_data_x,best_fea,1)
    
    fea_label = np.delete(fea_label,best_fea,0)
    
    #递归生成CART分类树
    my_tree[best_fea_label]["_".format(1,best_fea_val)] = classify_create_tree(equal_data_x,equal_data_y,fea_label)
    my_tree[best_fea_label]["_".format(0,best_fea_val)] = classify_create_tree(nequal_data_x,nequal_data_y,fea_label)

    return my_tree

决策树字典格式为“划分属性”:｛“含于该划分值中”，划分结果/继续分类，｛“不含于该划分值中”,划分结果/继续分类，注意在判断是否含于该划分值中，构建如“1_划分值”， “0 _划分值”这样的字符串，1表示包含，0表示不包含。如下如所示：

测试函数

#测试操作
import re
#预测一条测试数据结果
def classify(inputTree,xlabel,testdata):
    '''
    input:inputTree(dict):CART分类决策树
          xlabel(list):特征属性列表
          testdata(darry):一条测试数据特征值
    output:classLabel(int):测试数据预测结果
    '''
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = xlabel.index(firstStr)#根据key值得到索引
    classLabel = '0'#定义变量classLabel，默认值为0
    
    ans = re.findall(r'\\d+\\.\\d+',list(secondDict.keys())[0])
    if isinstance(testdata[featIndex],float):
        if float(testdata[featIndex]) >= float(ans[0]):
            if type(secondDict['1_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['1_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['1_'+ans[0]]
        else:
            if type(secondDict['0_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['0_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['0_'+ans[0]]
        return int(classLabel)
    else:
        if float(testdata[featIndex]) == float(ans[0]):
            if type(secondDict['1_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['1_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['1_'+ans[0]]
        else:
            if type(secondDict['0_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['0_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['0_'+ans[0]]
        return int(classLabel)

#预测所有测试数据结果
def classifytest(inputTree, xlabel, testDataSet):
    '''
    input:inputTree(dict):训练好的决策树
          xlabel(list):特征值标签列表
          testDataSet(ndarray):测试数据集
    output:classLabelAll(list):测试集预测结果列表
    '''    
    classLabelAll = []#创建空列表
    for testVec in testDataSet:#遍历每条数据
        classLabelAll.append(classify(inputTree, xlabel, testVec))#将每条数据得到的特征标签添加到列表
    return  np.array(classLabelAll)

源代码（全部）

import numpy as np
import re
#获取数据子集，分类与回归的做法相同
#将数据集根据划分特征切分为两类
def split_dataset(data_x,data_y,fea_axis,fea_value):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
          fea_axis(int):进行划分的特征编号（列数）
          fea_value(int):进行划分的特征对应特征值
    output:data_x[equal_Idx],data_y[equal_Idx](ndarry):特征值等于（大于等于）目标特征值的样本与标签
           data_x[nequal_Idx],data_y[nequal_Idx](ndarry):特征值不等于（小于）目标特征的样本与标签
    '''
    if  isinstance(fea_value,float): 
        #如果特征值为浮点数(连续特征值)，那么进行连续值离散化
        equal_Idx = np.where(data_x[:,fea_axis]>=fea_value) #找出特征值大于等于fea_alue的样本序号
        nequal_Idx = np.where(data_x[:,fea_axis]<fea_value) #找出特征值小于fea_alue的样本序号
    else:
        equal_Idx = np.where(data_x[:,fea_axis]==fea_value) #找出特征值等于fea_alue的样本序号
        nequal_Idx = np.where(data_x[:,fea_axis]!=fea_value) #找出特征值不等于fea_alue的样本序号
    return data_x[equal_Idx],data_y[equal_Idx],data_x[nequal_Idx],data_y[nequal_Idx]

#使用决策树进行分类需要用到
#求解基尼指数,即两个样本不属于同一标签的概率（二分类问题）
def cal_gini(data_y):
    '''
    input:data_y(ndarry):标签值
    output:gini(float):基尼指数
    '''
    m = len(data_y)  #全部样本的标签数量
    labels = np.unique(data_y) #获得不同种类的标签（去重）
    gini = 1.0  #最后返回的基尼指数
    for label in labels:
        ans = data_y[np.where(data_y[:]==label)].size/m  #该标签的出现概率
        gini -= ans*ans  #累减计算基尼指数（两两不同的总概率）
    return gini

#分类方法实现最优特征的选取以及特征值划分
def classify_get_best_fea(data_x,data_y):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
    output:best_fea(int):最优特征
           best_fea_val(int):最优特征值
    '''
    m,n = np.shape(data_x)  #m，n分别为样本数以及特征属性数
    #初始化
    best_fea = -1
    best_fea_val = -1
    min_fea_gini = np.inf
    
    for i in range(n):  #遍历所有特征（列）
        feas = np.unique(data_x[:,i])  #获得该特征下所有特征值
        #分别以每个特征值为中心进行划分求基尼系数，找到使基尼系数最小的划分
        for j in feas:
            equal_data_x,equal_data_y,nequal_data_x,nequal_data_y = split_dataset(data_x,data_y,i,j)
            fea_gini = 0.0
            
            fea_gini = len(equal_data_y)/m*cal_gini(equal_data_y)+len(nequal_data_y)/m*cal_gini(nequal_data_y)
            #如果该划分方式的基尼系数更小（纯度更高），那么直接进行更新
            if fea_gini<min_fea_gini:
                min_fea_gini = fea_gini
                best_fea = i
                best_fea_val = j
        
    return best_fea,best_fea_val

#创建分类方法的决策树
def classify_create_tree(data_x,data_y,fea_label):
    '''
    input:data_x(ndarry):特征值
          data_y(ndarry):标签值
          fea_label(list):特征属性列表
    output:my_tree(dict):生成的CART分类树
    '''
    labels = np.unique(data_y)
    #只有一个标签的情况
    if len(labels)==1:
        return data_y[0]
    #特征集为0的情况，采用多数投票的方法
    if data_x.shape[1]==0:
        best_fea,best_fea_num = 0,0
        for label in labels:
            num = data_y[np.where(data_y==label)].size
            if num>best_fea_num:
                best_fea = label
                best_fea_num = num
        return best_fea
    
    best_fea,best_fea_val = classify_get_best_fea(data_x,data_y)
    best_fea_label = fea_label[best_fea]
    print(u"此时最优索引为："+str(best_fea_label))
    my_tree = best_fea_label:
    
    #获得划分结果
    equal_data_x,equal_data_y,nequal_data_x,nequal_data_y = split_dataset(data_x,data_y,best_fea,best_fea_val)
    #删除最优特征
    equal_data_x = np.delete(equal_data_x,best_fea,1)
    nequal_data_x = np.delete(nequal_data_x,best_fea,1)
    
    fea_label = np.delete(fea_label,best_fea,0)
    
    #递归生成CART分类树
    my_tree[best_fea_label]["_".format(1,best_fea_val)] = classify_create_tree(equal_data_x,equal_data_y,fea_label)
    my_tree[best_fea_label]["_".format(0,best_fea_val)] = classify_create_tree(nequal_data_x,nequal_data_y,fea_label)

    return my_tree

#预测一条测试数据结果
def classify(inputTree,xlabel,testdata):
    '''
    input:inputTree(dict):CART分类决策树
          xlabel(list):特征属性列表
          testdata(darry):一条测试数据特征值
    output:classLabel(int):测试数据预测结果
    '''
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = xlabel.index(firstStr)#根据key值得到索引
    classLabel = '0'#定义变量classLabel，默认值为0
    
    ans = re.findall(r'\\d+\\.\\d+',list(secondDict.keys())[0])
    if isinstance(testdata[featIndex],float):
        if float(testdata[featIndex]) >= float(ans[0]):
            if type(secondDict['1_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['1_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['1_'+ans[0]]
        else:
            if type(secondDict['0_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['0_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['0_'+ans[0]]
        return int(classLabel)
    else:
        if float(testdata[featIndex]) == float(ans[0]):
            if type(secondDict['1_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['1_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['1_'+ans[0]]
        else:
            if type(secondDict['0_'+ans[0]]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                    classLabel = classify(secondDict['0_'+ans[0]], xlabel, testdata)#如果是字典格式，进行递归
            else:
                classLabel = secondDict['0_'+ans[0]]
        return int(classLabel)

#预测所有测试数据结果
def classifytest(inputTree, xlabel, testDataSet):
    '''
    input:inputTree(dict):训练好的决策树
          xlabel(list):特征值标签列表
          testDataSet(ndarray):测试数据集
    output:classLabelAll(list):测试集预测结果列表
    '''    
    classLabelAll = []#创建空列表
    for testVec in testDataSet:#遍历每条数据
        classLabelAll.append(classify(inputTree, xlabel, testVec))#将每条数据得到的特征标签添加到列表
    return  np.array(classLabelAll)

测试集1（鸢尾花集）

全部属性以及部分标签如下：

[外链图片转<p>以上是关于实验三：CART分类决策树python实现（两个测试集）|机器学习的主要内容，如果未能解决你的问题，请参考以下文章</p>
</article> </div> </div> </div> </section>

</div>
</div>
<script type=

实验三：CART分类决策树python实现（两个测试集）|机器学习

目录

python实现

分步

源代码（全部）

测试集1（鸢尾花集）