《统计学习方法》之朴素贝叶斯与生成模型

Posted 2021-08-09 大数据与AI小白

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了《统计学习方法》之朴素贝叶斯与生成模型相关的知识，希望对你有一定的参考价值。

引言

在学习概率论的时候我们会遇到下面这种问题：

下面有两个盒子（可以看成是两类），Class 1中有蓝球3个，红球1个，Class 2中有蓝球1个，红球3个，假设现在我手中已经抽到了一个红球，问分别取自Class 1和Class 2的概率是多少：

在计算概率之前我们设随机变量X表示球的颜色（红色用1表示，蓝色用0表示），随机变量Y表示球的类别，我们的目标是求出 $P(Y=1|X=1)$ .

我们知道先验概率分布为：

$P(Y = 1) = P(Y=2) = 1/2.$

条件概率分布为：

$\begin{align} P(X=0|Y=1) = 3/4,\quad P(X=1|Y=1) = 1/4;\notag\\ P(X=0|Y=2) = 1/4,\quad P(X=1|Y=1) = 3/4;\notag \end{align}$

由贝叶斯公式和全概率公式我们可以计算出：

$\begin{align} P(Y=1|X=1)&=\frac{P(X=1,Y=1)}{P(X=1}\notag\\ &=\frac{P(X=1|Y=1)P(Y=1)}{P(X=1|Y=1)P(Y=1)+P(X=1|Y=2)P(Y=2)}\notag\\ &=\frac{1/4\times1/2}{1/4\times1/2+3/4\times1/2}\notag\\ &=1/4\tag{3} \end{align}.$

同样地我们也可以计算出这个红球出自Class 2的概率：

$P(Y=2|X=1)=3/4.$

这个例子中可以看出一些贝叶斯估计的思想，当我们有一个实例x的时候，我们要对x进行分类，可以计算条件概率 $P(Y|X)$ 来判断归为哪一类更加合理，如上例子中我们更有理由认为这个红球是属于Class 2的。

朴素贝叶斯的基本方法

我们设输入空间为 $\chi \subseteq R^n$ ，输出空间为 $S = \{c_1,\dots,c_K\}$ ，X和Y分别是定义在输入空间与输出空间上的随机变量。训练数据集合为： $T=\{(x_1,y_1),\dots,(x_N,y_N)\}$ ,朴素贝叶斯法就是通过训练数据学习联合概率分布 $P(X,Y)$ .

不同于判别模型直接由实例x根据后验概率最大化给出y，朴素贝叶斯模型实际上是算出了联合概率分布 $P(X,Y)$ ，对于每一个实例 $x_i$ 和类别 $c_k$ ，我们都需要算出 $P(X=x_i,Y=c_k)$ 来计算后验概率 $P(Y=c_k|X=x_i)$ ，选出概率最大的那一个，只不过在计算后验概率的过程中，我们使用贝叶斯公式和乘法公式，将联合概率转化成其他的形式。

假设我们知道先验分布 $P(Y=c_k)$ ，条件概率 $P(X=x|Y=c_k)$ ，对于条件概率我们有：

$\begin{align} P(X=x|Y=c_k) &= P(X^{(1)}=x_1,X^{(2)}=x_2,\dots,X^{(n)}=x_n|Y=c_k)\notag\\ &=\prod_{i=1}^{n}P(X^{(i)}=x_i|Y=c_k)\notag \end{align}$

在上式中我们做了一个重要的假设，即条件独立性假设，我们假定X每个分量是条件独立的，也就是说在类别 $c_k$ 确定的时候，用于分类的每一个特征是独立的。这一假定有利于减少计算的复杂度和计算量。假设每个特征的取值个数为 $n_i$ ,则一共有 $k\prod_{i=1}^nc_i$ 个参数，再不做假设的情况下，很难得到条件概率分布 $P(X=x|Y=c_k)$

有了上述两个分布之后，我们就可以计算后验概率了，而这是我们将实例x进行分类的依据：

$\begin{align} P(Y=c_k|X=x) &= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{i=1}^KP(X=x|Y=c_i)P(Y=c_i)}\notag\\ &=\frac{\prod_{i=1}^nP(X^{(i)}=x_i|Y=c_k)P(Y=c_k)}{\sum_{i=1}^K\prod_{j=1}^nP(X^{(j)}=x_j|Y=c_k)P(Y=c_i)}\notag \end{align}$

从上式可以看出，对于每一类 $c_k$ ，这个条件概率的分母都是一样的，所以比较概率大小的时候只需要比较分子就可以了。我们需要找到使得条件概率最大的 $c_k$ ，这样朴素贝叶斯模型就可以写成如下最优化问题：

$\begin{align} y&=\mathop{\arg\max}\limits_{c_k}P(Y=c_k|X=x)\notag\\ &=\mathop{\arg\max}\limits_{c_k}P(Y=c_k)\prod_{i=1}^nP(X^{(i)}=x_i|Y=c_k)\notag.\\ \end{align}$

后验概率最大化的含义

我们基于后验概率 $P(Y=c_k|X=x)$ 获得了实例x的分类 $c_k$ ，这样做会有一定的风险即将x误分类了，我们希望模型尽可能的好，就需要我们做的分类尽可能准确，也就是总体损失或风险最小。这样我们就需要找到一个判断准则使得总体风险最小。

我们设分类决策函数是 $f(X)$ ，0-1风险函数为：

$L(Y,f(X))= \begin{cases} 1,\quad &Y\neq f(X)\\ 0,\quad &Y=f(X) \end{cases}$

表示我们的分类 $f(X)$ 与标识Y是否相同。这样就可以得到期望风险函数为：

$R_{exp}(f)=E[L(Y,f(X)]$

这是对联合密度函数 $P(X,Y)$ 求期望，对于离散情形，上式可以写成：

$\begin{align} R_{exp}(f)&=\sum_{i=1}^K\sum_{j=1}^NL(Y=c_i,f(x_j))P(X=x_j,Y=c_i)\notag\\ &=\sum_{i=1}^K\sum_{j=1}^NL(Y=c_i,f(x_j))P(Y=c_i|X=x_j)P(X=x_j)\notag\\ &=\sum_{j=1}^NP(X=x_j)\sum_{i=1}^KL(Y=c_i,f(x_j))P(Y=c_i|X=x_j)\notag\\ &=E_X\sum_{i=1}^KL(Y=c_i,f(x_j))P(Y=c_i|X=x_j)\notag \end{align}$

这样朴素贝叶斯法可以写成： $f(x)=\mathop{\arg\min}R_{exp}(f)$ .

我们需要最小化总体风险，只需要在每个样本上选择那个使得条件风险最小，即对于每一个 $x_j$ ，使得下式最小：

$\sum_{i=1}^KL(Y=c_i,f(x_j))P(Y=c_i|X=x_j)$ .

这样可以得到：

$\begin{align} f(x)&=\mathop{\arg\min}\limits_{y=f(x)\in Y}\sum_{i=1}^KL(Y=c_i,f(x))P(Y=c_i|X=x)\notag\\ &=\mathop{\arg\min}\limits_{y=f(x)\in Y} \sum_{i=1,c_i \neq f(x)}^KP(Y=c_i\neq f(x)|X=x)(一共有K-1项）\notag\\ &=\mathop{\arg\min}\limits_{y=f(x)\in Y} （1-P(Y=f(x)|X=x))\notag\\ &=\mathop{\arg\max}\limits_{y=f(x)\in Y} P(Y=f(x)|X=x)\notag \end{align}$

从这里就可以看出最小化总体风险（期望风险最小化）和最大化后验概率本质上是等价的。

朴素贝叶斯的参数估计

由上我们可以知道要计算后验概率的关键是知道分类的先验分布和条件分布，由大数定律可以知道我们可以用训练数据中的频率来作为概率的估计，这样我们可以得到朴素贝叶斯的参数估计如下：

$\begin{align} P(Y=c_k)&=\frac{训练数据集中类标记为c_k的实例数量}{训练数据集的中实例的数量}\notag\\ &=\frac{\sum_{i=1}^{N}I(y_i = c_k)}{N}\notag \end{align}$

条件概率的估计如下：

$\begin{align} P(X^{(j)}=x_j|Y=c_k)&= \frac{特征向量X的第j个分量为x_j的个数}{训练数据集中的实例总数}\notag\\ &=\frac{\sum_{i=1}^NI(x_i^{(j)}=x_j,y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}\notag \end{align}$

以上估计又可称为极大似然估计，但这种估计存在一个问题，那就是可能为0，例如，当训练数据集中没有类集合Y中的 $c_k$ ，那么就有 $P(Y=c_k)=0$ ，最终对于任意实例x，都不可能被分到 $c_k$ 这一类，很有可能就影响分类的准确性。一个解决方法是使用贝叶斯估计：

$\begin{align} P(Y=c_k) =\frac{\sum_{i=1}^{N}I(y_i = c_k)+\lambda}{N+K\lambda}\notag\\ s.t. \sum{P(Y=c_k)}=1\notag \end{align}$ ;

$\begin{align} P(X^{(j)}=x_{jl}|Y=c_k) =\frac{\sum_{i=1}^NI(x_i^{(j)}=x_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda}\notag\\ s.t. \sum_{l=1}^{S_j}P(X^{(j)}=x_{jl}|Y=c_k)=1\notag \end{align}$ .