机器学习笔记——朴素贝叶斯

Posted 2022-12-02 Lyndon_zheng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习笔记——朴素贝叶斯相关的知识，希望对你有一定的参考价值。

Naive Bayes

朴素贝叶斯网络是贝叶斯分类器的一种，贝叶斯分类算法是统计学的一种分类方法，利用概率论和统计知识进行分类。其原理是利用贝叶斯公式根据样本的先验概率来计算其后验概率（即样本属于某一类的概率），然后选择具有最大后验概率的类作为该对象所属的类别。朴素贝叶斯分类以概率论为基础，有坚实的数学基础，以及稳定的分类效率，其优点是算法简单，在数据较少的情况下仍然准确。理论上朴素贝叶斯分类有最小的误差率，但实际贝叶斯假设样本之间的各个特征相互独立往往不成立，从而影响分类正确性。

1.贝叶斯理论

2.朴素贝叶斯法的学习与分类

设输入空间 $\\mathcalX\\subseteq R^n$ 为 $n$ 维特征向量的集合，输出空间为分类标记集合 $\\mathcalY=\\c_1,c_2,\\ldots, c_k\\$ 。朴素贝叶斯分类器的输入为特征向量 $x\\in\\mathcalX$ ,输出为预测类标记 $y\\in\\mathcalY$ ，学习过程就是通过训练数据集 $T=\\(x_1,y_1),(x_2,y_2),\\ldots,(x_N,y_N)\\$ 得到联合分布概率 $P(X,Y)$ , 并以此来预测未知样本的标记。
具体地：
后验概率：

P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)P(X=x) $P(Y=c_k|X=x)=\\fracP(X=x|Y=c_k)P(Y=c_k)P(X=x)$
其中，

P(Y=ck) $P(Y=c_k)$ 为类别标签的先验概率，

P(X=x|Y=ck) $P(X=x|Y=c_k)$ 为条件概率分布，且在朴素贝叶斯中假设各个特征具有相同地位且各自出现的概率相互独立，因此：

P(X=x|Y=ck)=P(X(1)=x(1),X(2)=x(2),…,X(n)=