机器学习笔记——朴素贝叶斯

Posted Lyndon_zheng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习笔记——朴素贝叶斯相关的知识,希望对你有一定的参考价值。

Naive Bayes

朴素贝叶斯网络是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率论和统计知识进行分类。其原理是利用贝叶斯公式根据样本的先验概率来计算其后验概率(即样本属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类别。朴素贝叶斯分类以概率论为基础,有坚实的数学基础,以及稳定的分类效率,其优点是算法简单,在数据较少的情况下仍然准确。理论上朴素贝叶斯分类有最小的误差率,但实际贝叶斯假设样本之间的各个特征相互独立往往不成立,从而影响分类正确性。

1.贝叶斯理论

在贝叶斯理论中,假设X,Y两个事件:
P(X) X 先验概率
P(Y|X) 是已知 X 发生后Y 发生的条件概率,也称之为 Y 后验概率
贝叶斯理论中,常用公式:
乘法公式:P(XYZ)=P(Z|XY)P(Y|X)P(X)
全概率公式: P(X)=kP(X|Yi)P(Yi)
贝叶斯公式: P(Yi|X)=P(X|Yi)P(X)

2.朴素贝叶斯法的学习与分类

设输入空间 XRn n 维特征向量的集合,输出空间为分类标记集合Y=c1,c2,,ck。 朴素贝叶斯分类器的输入为特征向量 xX ,输出为预测类标记 yY , 学习过程就是通过训练数据集 T=(x1,y1),(x2,y2),,(xN,yN) 得到联合分布概率 P(X,Y) , 并以此来预测未知样本的标记。
具体地:
后验概率:

P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)P(X=x)
其中, P(Y=ck) 为类别标签的先验概率, P(X=x|Y=ck) 为条件概率分布,且在朴素贝叶斯中假设各个特征具有相同地位且各自出现的概率相互独立,因此:
P(X=x|Y=ck)=P(X(1)=x(1),X(2)=x(2),,X(n)=机器学习--朴素贝叶斯分类,以及拉普拉斯校准

机器学习面试题——朴素贝叶斯

机器学习实战教程:朴素贝叶斯实战篇之新浪新闻分类

机器学习强基计划4-3:详解朴素贝叶斯分类原理(附例题+Python实现)

从朴素贝叶斯分类到贝叶斯网络

机器学习:朴素贝叶斯分类器实现二分类(伯努利型) 代码+项目实战