ML—朴素贝叶斯

Posted 2020-10-02 gccbuaa

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ML—朴素贝叶斯相关的知识，希望对你有一定的参考价值。

华电北风吹
日期：2015/12/12

朴素贝叶斯算法和高斯判别分析一样同属于生成模型。但朴素贝叶斯算法须要特征条件独立性如果，即样本各个特征之间相互独立。

一、朴素贝叶斯模型
朴素贝叶斯算法通过训练数据集学习联合概率分布 $p(x,y),当中x=(x_1,x_2,...,x_n) \in R^n,y\in R$ 。详细的对于K分类问题就是须要学习一个类别的先验概率分布 $p(y=c_k),k=1,2,...,K$ 和每一个类别下的条件概率分布(如式1-1)
$p(x|y)=p(x_1,x_2,...,x_n|y) \tag{1-1}$
因为朴素贝叶斯算法没有如果特征的分布，因此须要将每一个特征量化为离散型变量，然后学习各个特征水平下的条件概率。

如果各个特征 $x_i$ 被分别量化为 $S_i$ 个水平，那么共同拥有 $K+K\prod_{i=1}^{n}{S_i}$ 个须要学习的參数。
可是，为了使朴素贝叶斯算法变得简单点—主要是降低參数个数，就强加了一个条件概率分布的独立性如果(详细如式1-2)
$p(x|y)=p(x_1,x_2,...,x_n|y)=\prod_{i=1}^{n}{P(x_i|y)} \tag{1-2}$
这样须要学习的參数个数就变为 $K+K\sum_{i=1}^{n}{S_i}$ 个，大大的简化了模型。

二、朴素贝叶斯參数预计
在条件独立性如果下，贝叶斯模型的參数学习就简化为类别先验概率 $p(y=c_k)$ 和条件概率 $p(x_i|y)$ 的学习。

1、极大似然预计
对于训练数据集 $(x^{(i)},y^{(i)}),x^{(i)}\in R^n,y^{(i)}\in R$ ，似然函数例如以下,
$L(\phi_y,\phi_{x|y})=\prod_{i=1}^{m}{p(x^{(i)},y^{(i)})}=\prod_{i=1}^{m}{p(y^{(i)})\prod_{j=1}^{n}p(x_j^{(i)}|y^{(i)})} \tag{2-1}$
结合 $\sum_{y}{\phi_y}=1$ 以及 $\sum_{}^{S_i}p(x_{i}|y)=1$ ,能够easy得到下式(简单的求偏导就可以，两式均是)：
$\phi_{y=k}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=k\}}{m}\tag{2-2}$
$\phi_{x_i=j|y=k}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=k \bigcap x_i=j\}}{\sum_{i=1}^{m}1\{y^{(i)}=k\}}\tag{2-3}$

2、古德-图灵预计
主要用于解决统计样本不足的概率预计问题，主要思想是在统计中相信可靠的统计数据，而对不可信的统计数据打折扣的一种概率预计方法。同一时候将折扣出来的那一小部分概率给予为看见的事件。

3、贝叶斯预计(拉普拉斯光滑)
在公式2-2和2-3中。会出现分子分母同为0的情况。解决这样的情况的方案例如以下：
$\phi_{y=k}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=k\}+\lambda}{m+K\lambda}\tag{2-4}$
$\phi_{x_i=j|y=k}=\frac{\sum_{i=1}^{m}1\{y^{(i)}=k \bigcap x_i=j\}+\lambda}{\sum_{i=1}^{m}1\{y^{(i)}=k\}+S_j\lambda}\tag{2-5}$
当中 $\lambda\geq 0$ .一般取 $\lambda=1$ 。

三、朴素贝叶斯决策方法—最大后验概率
对于測试数据 $x\in R^n$ ，朴素贝叶斯模型採用贝叶斯规则决策。详细表述例如以下：
$p(y|x)=arg\max_k p(y=k)p(x|y=k)$
採用后验概率最大的类别作为模型输出类别。

如今细致想想感觉朴素贝叶斯跟k-means逻辑上的思路还是比較接近的。

以上是关于ML—朴素贝叶斯的主要内容，如果未能解决你的问题，请参考以下文章

SPARK ML，朴素贝叶斯分类器：一类的高概率预测

spark ml 2.0 - 朴素贝叶斯 - 如何确定每个类的阈值

机器学习套路：朴素贝叶斯

MATLAB：具有单变量高斯的朴素贝叶斯

NLP系列_朴素贝叶斯实战与进阶

朴素贝叶斯：朴素贝叶斯定义朴素贝叶斯公式分解朴素贝叶斯分类流程高斯型朴素贝叶斯多项式朴素贝叶斯伯努利型朴素贝叶斯朴素贝叶斯预测概率校准朴素贝叶斯优缺点