课程作业西瓜书 机器学习课后习题 : 第七章

Posted 海轰Pro

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了课程作业西瓜书 机器学习课后习题 : 第七章相关的知识,希望对你有一定的参考价值。

目录

简介

Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
 
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
 
唯有努力💪
 
本文仅记录自己感兴趣的内容

说明

作业要求:每章从课后习题中选取3道题做就可以了

答案来源:题目的解答过程来自于网络,依据个人所学进行了一些修改、总结

仅供参考

7.1

试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

7.3

试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3,0为训练集,对p151“测1“ 样本进行判别。

答:

import numpy as np
import pandas as pd
from sklearn.utils.multiclass import type_of_target
from collections import namedtuple

def train_nb(X, y):
    m, n = X.shape
    p1 = (len(y[y == '是']) + 1) / (m + 2)
    p1_list = []
    p0_list = []
    X1 = X[y == '是']
    X0 = X[y == '否']
    m1, _ = X1.shape
    m0, _ = X0.shape
    for i in range(n):
        xi = X.iloc[:, i]
        p_xi = namedtuple(X.columns[i], ['is_continuous', 'conditional_pro'])
        is_continuous = type_of_target(xi) == 'continuous'
        xi1 = X1.iloc[:, i]
        xi0 = X0.iloc[:, i]
        if is_continuous:
            xi1_mean = np.mean(xi1)
            xi1_var = np.var(xi1)
            xi0_mean = np.mean(xi0)
            xi0_var = np.var(xi0)

            p1_list.append(p_xi(is_continuous, [xi1_mean, xi1_var]))
            p0_list.append(p_xi(is_continuous, [xi0_mean, xi0_var]))
        else:  
            unique_value = xi.unique()  # 取值情况
            nvalue = len(unique_value)  # 取值个数
            xi1_value_count = pd.value_counts(xi1)[unique_value].fillna(0) + 1 
            xi0_value_count = pd.value_counts(xi0)[unique_value].fillna(0) + 1
            p1_list.append(p_xi(is_continuous, np.log(xi1_value_count / (m1 + nvalue))))
            p0_list.append(p_xi(is_continuous, np.log(xi0_value_count / (m0 + nvalue))))
    return p1, p1_list, p0_list


def predict_nb(x, p1, p1_list, p0_list):
    n = len(x)
    x_p1 = np.log(p1)
    x_p0 = np.log(1 - p1)
    for i in range(n):
        p1_xi = p1_list[i]
        p0_xi = p0_list[i]
        if p1_xi.is_continuous:
            mean1, var1 = p1_xi.conditional_pro
            mean0, var0 = p0_xi.conditional_pro
            x_p1 += np.log(1 / (np.sqrt(2 * np.pi) * var1) * np.exp(- (x[i] - mean1) ** 2 / (2 * var1 ** 2)))
            x_p0 += np.log(1 / (np.sqrt(2 * np.pi) * var0) * np.exp(- (x[i] - mean0) ** 2 / (2 * var0 ** 2)))
        else:
            x_p1 += p1_xi.conditional_pro[x[i]]
            x_p0 += p0_xi.conditional_pro[x[i]]
    if x_p1 > x_p0:
        return '是好瓜'
    else:
        return '不是好瓜'

if __name__ == '__main__':
    data_path = r'xigua3.csv'
    data = pd.read_csv(data_path, index_col=0)
    X = data.iloc[:, :-1]
    y = data.iloc[:, -1]
    p1, p1_list, p0_list = train_nb(X, y)
    x_test = X.iloc[0, :]
print(predict_nb(x_test, p1, p1_list, p0_list))

实验结果如下图:

7.4

实践中使用式(7.15)决定分类类别时,若数据的维数非常高,则概率连乘的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案

答:通过对式子取对数将连乘转化为“连加“防止下溢。对式(7.15)取对数后,得到下式:

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

以上是关于课程作业西瓜书 机器学习课后习题 : 第七章的主要内容,如果未能解决你的问题,请参考以下文章

课程作业西瓜书 机器学习课后习题 : 第六章

课程作业西瓜书 机器学习课后习题 : 第五章

课程作业西瓜书 机器学习课后习题 : 第八章

课程作业西瓜书 机器学习课后习题 : 第十二章

课程作业西瓜书 机器学习课后习题 : 第二章

课程作业西瓜书 机器学习课后习题 : 第四章