课程作业西瓜书 机器学习课后习题 : 第七章
Posted 海轰Pro
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了课程作业西瓜书 机器学习课后习题 : 第七章相关的知识,希望对你有一定的参考价值。
目录
简介
Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力💪
本文仅记录自己感兴趣的内容
说明
作业要求:每章从课后习题中选取3道题做就可以了
答案来源:题目的解答过程来自于网络,依据个人所学进行了一些修改、总结
仅供参考
7.1
试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。
7.3
试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3,0为训练集,对p151“测1“ 样本进行判别。
答:
import numpy as np
import pandas as pd
from sklearn.utils.multiclass import type_of_target
from collections import namedtuple
def train_nb(X, y):
m, n = X.shape
p1 = (len(y[y == '是']) + 1) / (m + 2)
p1_list = []
p0_list = []
X1 = X[y == '是']
X0 = X[y == '否']
m1, _ = X1.shape
m0, _ = X0.shape
for i in range(n):
xi = X.iloc[:, i]
p_xi = namedtuple(X.columns[i], ['is_continuous', 'conditional_pro'])
is_continuous = type_of_target(xi) == 'continuous'
xi1 = X1.iloc[:, i]
xi0 = X0.iloc[:, i]
if is_continuous:
xi1_mean = np.mean(xi1)
xi1_var = np.var(xi1)
xi0_mean = np.mean(xi0)
xi0_var = np.var(xi0)
p1_list.append(p_xi(is_continuous, [xi1_mean, xi1_var]))
p0_list.append(p_xi(is_continuous, [xi0_mean, xi0_var]))
else:
unique_value = xi.unique() # 取值情况
nvalue = len(unique_value) # 取值个数
xi1_value_count = pd.value_counts(xi1)[unique_value].fillna(0) + 1
xi0_value_count = pd.value_counts(xi0)[unique_value].fillna(0) + 1
p1_list.append(p_xi(is_continuous, np.log(xi1_value_count / (m1 + nvalue))))
p0_list.append(p_xi(is_continuous, np.log(xi0_value_count / (m0 + nvalue))))
return p1, p1_list, p0_list
def predict_nb(x, p1, p1_list, p0_list):
n = len(x)
x_p1 = np.log(p1)
x_p0 = np.log(1 - p1)
for i in range(n):
p1_xi = p1_list[i]
p0_xi = p0_list[i]
if p1_xi.is_continuous:
mean1, var1 = p1_xi.conditional_pro
mean0, var0 = p0_xi.conditional_pro
x_p1 += np.log(1 / (np.sqrt(2 * np.pi) * var1) * np.exp(- (x[i] - mean1) ** 2 / (2 * var1 ** 2)))
x_p0 += np.log(1 / (np.sqrt(2 * np.pi) * var0) * np.exp(- (x[i] - mean0) ** 2 / (2 * var0 ** 2)))
else:
x_p1 += p1_xi.conditional_pro[x[i]]
x_p0 += p0_xi.conditional_pro[x[i]]
if x_p1 > x_p0:
return '是好瓜'
else:
return '不是好瓜'
if __name__ == '__main__':
data_path = r'xigua3.csv'
data = pd.read_csv(data_path, index_col=0)
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
p1, p1_list, p0_list = train_nb(X, y)
x_test = X.iloc[0, :]
print(predict_nb(x_test, p1, p1_list, p0_list))
实验结果如下图:
7.4
实践中使用式(7.15)决定分类类别时,若数据的维数非常高,则概率连乘的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案
答:通过对式子取对数将连乘转化为“连加“防止下溢。对式(7.15)取对数后,得到下式:
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
以上是关于课程作业西瓜书 机器学习课后习题 : 第七章的主要内容,如果未能解决你的问题,请参考以下文章