朴素贝叶斯（Naive Bayes）算法

Posted 2023-04-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了朴素贝叶斯（Naive Bayes）算法相关的知识，希望对你有一定的参考价值。

参考技术A

朴素贝叶斯算法属于分类算法。发源于古典数学理论，对缺失数据不太敏感，有稳定的分类效率，模型所需估计的参数很少，算法比较简单。

朴素贝叶斯算法 ， 贝叶斯 是说明这个算法和贝叶斯定理有联系，而朴素是因为处理实际的需要，做了一个简化—— 假设每个特征之间是独立的 （如果研究的对象互相之间的影响很强，计算概率时考虑的问题非常复杂，做了独立假设，就可以分解后进行研究），这是这个算法模型与贝叶斯定理的区别。

将 x 作为特征，y 作为类别，那公式左边的 P（yi|x）就是说在知道特征 x 的情况下，计算这个特征属于 yi 类的可能性大小。通过比较找出这个可能性的值最大的属于哪一类，就将特征 x 归为这一类。

第3步的计算就是整个关键所在，计算依据是上面的贝叶斯公式。

对于每一个类的概率计算，公式右边的分母的 P(x)都是相同的，所以可以不计算（我们只是对最终结果进行比较，不影响）。

P（yi）也称为先验概率，是 x 属于 yi 类的一个概率，这个是通过历史信息得到的（在程序实现的时候，历史信息或者说先验信息就是我们的训练数据集），我们通过对训练样本数据进行统计，分别算出 x 属于 y1,y2,...,yn 类的概率是多少,这个是比较容易得到的。

所以，主要是求 P（x|yi）= P(a1,a2,...,am|yi)

这个时候对于贝叶斯模型的朴素的独立性假设就发挥作用了(综合的计算变成了独立计算后的综合，简化模型，极大地减少了计算的复杂程度)：

P(a1,a2,...,am|yi) = P(a1|yi)P(a2|yi)...P(am|yi)

所以计算想要得到的东西如下：

一个程序简例

贝叶斯分类算法（下）：低调朴素的Naive Bayes

分类，是生物信息分析过程中的重要环节。前段时间在《》中，和大家分享了贝叶斯分类算法的基础，即贝叶斯定理。今天，我们将通过实例来讨论贝叶斯分类中最简单的一种算法——朴素贝叶斯分类。

一、朴素贝叶斯分类的思想基础

朴素贝叶斯分类是一种十分简单的分类算法，叫它“朴素”贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：

对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

二、朴素贝叶斯分类的定义

1、设x = {a₁, a₂,…, a_m}为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合C = {y₁, y₂,…, y_n}。

3、计算P(y₁|x), P(y₂|x), …, P(y_n|x)。

4、如果P(y_k|x) = max{P(y₁|x), P(y₂|x), …, P(y_n|x)}，则x∈y_k。

三、朴素贝叶斯分类的分析流程

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

① 找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

② 统计得到在各类别下各个特征属性的条件概率估计。即P(a₁|y₁),P(a₂|y₁), …, P(a_m|y₁); P(a₁|y₂), P(a₂|y₂), …, P(a_m|y₂); …; P(a₁|y_n), P(a₂|y_n), …, P(a_m|y_n)。

③ 如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

贝叶斯分类算法（下）：低调朴素的Naive Bayes

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

贝叶斯分类算法（下）：低调朴素的Naive Bayes

根据上述分析，朴素贝叶斯分类的流程可以由下图表示（暂时不考虑验证）：

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段

这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段

这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段

这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

四、估计类别下特征属性划分的条件概率及Laplace校准

由上文看出，计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)，下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。即：

而

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。均值与标准差的计算在此不再赘述。

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

>>>

供稿：范芳芳

编辑：王丽燕

以上是关于朴素贝叶斯（Naive Bayes）算法的主要内容，如果未能解决你的问题，请参考以下文章

贝叶斯分类算法（下）：低调朴素的Naive Bayes

第10天：NLP补充——朴素贝叶斯(Naive-Bayes)

手写算法实现之朴素贝叶斯 Naive Bayes 篇

数据挖掘十大经典算法（1）——朴素贝叶斯(Naive Bayes)

干货|非常通俗的朴素贝叶斯算法（Naive Bayes）