第10天:NLP补充——朴素贝叶斯(Naive-Bayes)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第10天:NLP补充——朴素贝叶斯(Naive-Bayes)相关的知识,希望对你有一定的参考价值。

参考技术A

1、引言
  贝叶斯方法是一个历史悠久,朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。当然有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。
2、贝叶斯公式
贝叶斯公式其实很简单,但是很常用,就一行:

  而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。而样本的类别标签都是明确的,所以贝叶斯方法在机器学习里属于有监督学习方法。
  这里再补充一下,一般『先验概率』、『后验概率』是相对出现的,比如 P(Y)与 P(Y|X) 是关于 Y的先验概率与后验概率, P(X)与 P(X|Y)是关于 X的先验概率与后验概率。
4、垃圾邮件识别
  我们可以通过一个例子来对邮件进行分类,识别垃圾邮件和普通邮件,如果我们选择使用朴素贝叶斯分类器,那目标就是判断 P(“垃圾邮件”|“具有某特征”) 是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封作为训练集。需要判断以下这个邮件是否属于垃圾邮件:

也就是判断概率 P(“垃圾邮件”|“我司可办理正规发票(保真)17%增值税发票点数优惠!”)是否大于1/2。我们不难发现:通过上述的理解,也就是将其转换成的这个概率,计算的方法:就是写个计数器,然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊。也就是:

  于是当我们接触到了中文NLP中,其中最为重要的技术之一:分词!!!也就是把一整句话拆分成更细粒度的词语来进行表示。另外,分词之后去除标点符号、数字甚至无关成分(停用词)是特征预处理中的一项技术。我们观察(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),这可以理解成一个向量:向量的每一维度都表示着该特征词在文本中的特定位置存在。这种将特征拆分成更小的单元,依据这些更灵活、更细粒度的特征进行判断的思维方式,在自然语言处理与机器学习中都是非常常见又有效的。因此贝叶斯公式就变成了:

1、朴素贝叶斯(Naive Bayes),“Naive”在何处?
  加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes)。将句子(“我”,“司”,“可”,“办理”,“正规发票”) 中的 (“我”,“司”)与(“正规发票”)调换一下顺序,就变成了一个新的句子(“正规发票”,“可”,“办理”, “我”, “司”)。新句子与旧句子的意思完全不同。但由于乘法交换律,朴素贝叶斯方法中算出来二者的条件概率完全一样!计算过程如下:

其中“发票”重复了三次。
3、处理重复词语的三种方式
(1)、多项式模型:
  如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有:

统计计算 P(“词语”|S)时也是如此。

我们扫描一下训练集,发现“正规发票”这个词从出现过!!! ,于是 P(“正规发票”|S)=0 …问题严重了,整个概率都变成0了!!!朴素贝叶斯方法面对一堆0,很凄惨地失效了…更残酷的是这种情况其实很常见,因为哪怕训练集再大,也可能有覆盖不到的词语。本质上还是样本数量太少,不满足大数定律,计算出来的概率失真 *。为了解决这样的问题,一种分析思路就是直接不考虑这样的词语,但这种方法就相当于默认给P(“正规发票”|S)赋值为1。其实效果不太好,大量的统计信息给浪费掉了。我们进一步分析,既然可以默认赋值为1,为什么不能默认赋值为一个很小的数?这就是平滑技术的基本思路,依旧保持着一贯的作风,朴实/土但是直接而有效。对于伯努利模型,P(“正规发票”|S)的一种平滑算法是:

接下来的核心问题就是训练出一个靠谱的分类器。首先需要有打好标签的文本。这个好找,豆瓣影评上就有大量网友对之前电影的评价,并且对电影进行1星到5星的评价。我们可以认为3星以上的评论都是好评,3星以下的评论都是差评。这样就分别得到了好评差评两类的语料样本。剩下就可以用朴素贝叶斯方法进行训练了。基本思路如下:

但是由于自然语言的特点,在提取特征的过程当中,有一些tricks需要注意:

当然经过以上的处理,情感分析还是会有一部分误判。这里涉及到许多问题,都是情感分析的难点:

(2)、拼写纠错
  拼写纠错本质上也是一个分类问题。但按照错误类型不同,又分为两种情况:

真词错误复杂一些,我们将在接下来的文章中进行探讨。而对于非词错误,就可以直接采用贝叶斯方法,其基本思路如下:

训练样本1:该场景下的正常用词语料库,用于计算 P(候选词i)。

训练样本2:该场景下错误词与正确词对应关系的语料库,用于计算 P(错误词|候选词i)

当然,朴素贝叶斯也是有缺陷的。比如我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,例如:朴素贝叶斯会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?当然有,就是这里要提到的N-gram语言模型。接下来详细给大家介绍N-gram语言模型。

1、从假设性独立到联合概率链规则
 与我们之前我们垃圾邮件识别中的条件独立假设是一样的:

4、N-gram实际应用举例
(1)、词性标注
  词性标注是一个典型的多分类问题。常见的词性包括名词、动词、形容词、副词等。而一个词可能属于多种词性。如“爱”,可能是动词,可能是形容词,也可能是名词。但是一般来说,“爱”作为动词还是比较常见的。所以统一给“爱”分配为动词准确率也还足够高。这种最简单粗暴的思想非常好实现,如果准确率要求不高则也比较常用。它只需要基于词性标注语料库做一个统计就够了,连贝叶斯方法、最大似然法都不要用。词性标注语料库一般是由专业人员搜集好了的,长下面这个样子。其中斜线后面的字母表示一种词性,词性越多说明语料库分得越细;需要比较以下各概率的大小,选择概率最大的词性即可:

将公式进行以下改造,比较各概率的大小,选择概率最大的词性:

N-gram分类器是结合贝叶斯方法和语言模型的分类器。这里用 Y1,Y2分别表示这垃圾邮件和正常邮件,用 X表示被判断的邮件的句子。根据贝叶斯公式有:

比较这些概率的大小,找出使得 P(Yi|X)最大的 Yi即可得到 X 所属的分类(分词方案)了。Yi作为分词方案,其实就是个词串,比如(“我司”,“可”,“办理”,“正规发票”)(“我”,“司可办”,“理正规”,“发票”),也就是一个向量了。而上面贝叶斯公式中 P(X|Yi)项的意思就是在分类方案 Yi的前提下,其对应句子为 X的概率。而无论分词方案是(“我司”,“可”,“办理”,“正规发票”)还是(“我”,“司可办”,“理正规”,“发票”),或者其他什么方案,其对应的句子都是“我司可办理正规发票”。也就是说任意假想的一种分词方式之下生成的句子总是唯一的(只需把分词之间的分界符号扔掉剩下的内容都一样)。于是可以将 P(X|Yi)看作是恒等于1的。这样贝叶斯公式又进一步化简成为:

也就是说我们

NLP经典分类模型朴素贝叶斯解读

贝叶斯分类器在早期的自然语言处理任务中有着较多实际的应用,例如大部分的垃圾邮件处理都是用的贝叶斯分类器。贝叶斯分类器的理论对于理解后续的NLP模型有很大的进益,感兴趣的小伙伴一定要好好看看,本文会详细的讲述贝叶斯分类器的原理。


本文会是我们NLP基础系列最后一篇机器学习模型的讲解,后面会进入深度学习相关的内容。


作者&编辑 | 小Dream哥


1 贝叶斯决策论

贝叶斯决策论是在统计概率框架下进行分类决策的基本方法。对于分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来预测分类。


假设在一个分类任务中,有N种可能的分类,y={c1,c2,c3,...,cN}。我们会这样定义将一个样本预测为ci的期望损失,又叫“条件风险”:

1、其中lambda_i_j,是将一个第j类样本预测为i类的损失

2、P(c_j|x)表示为将样本x预测为j类的概率

那么学习的任务是什么呢?


学习任务是寻找一个判定准则,利用该判定准则(分类器)进行分类预测,能够最小化条件风险:

【NLP】经典分类模型朴素贝叶斯解读

如果我们针对每个样本x都最小化其条件风险,那么整体的风险也会最小。


这就是所谓的贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即

【NLP】经典分类模型朴素贝叶斯解读

h*称为贝叶斯最优分类器。

讲了这些理论,估计大家更是云里雾里,那我们不妨来看看实际的朴素贝叶斯分类器是怎么构建的。


我们先假设lambda_i_j有这样的形式:

【NLP】经典分类模型朴素贝叶斯解读

那么

【NLP】经典分类模型朴素贝叶斯解读

这样的话,最小化分类错误率的贝叶斯最优分类器为:

【NLP】经典分类模型朴素贝叶斯解读

怎么理解呢?小Dream哥的理解是,根据贝叶斯判定准则,我们要预测一个样本属于哪一个类别,计算所有的后验概率P(c|x),概率最大的那一个类别的后验概率就是预测到的类别了。


那么该如何去计算后验概率P(c|x)呢?


贝叶斯模型是一种生成模型,先计算联合概率P(c,x),再通过联合概率计算后验概率,也就是利用如下的贝叶斯公式:

【NLP】经典分类模型朴素贝叶斯解读

OK,那联合概率和先验概率该怎么计算呢?朴素贝叶斯模型就该登场了。


2 朴素贝叶斯分类器

我们再来仔细的分析贝叶斯公式,在有一个训练集的情况下:

1、P(c)为样本为某个类别的概率,给定样本及其label后容易计算

2、P(x)为某个样本(所有属性相同)出现的概率,给定样本后,容 

     易得到

比较难计算的是P(x|c):

【NLP】经典分类模型朴素贝叶斯解读

其中m为样本属性的个数,例如预测西瓜是不是甜的模型,如果基于西瓜的花纹是否清晰、敲起来响声是否清亮这两个属性来判断的话,属性个数为2,也就是m=2。


在朴素贝叶斯模型中,有一个样本属性条件独立性假设,即:

【NLP】经典分类模型朴素贝叶斯解读

这样贝叶斯公式就变成了:

【NLP】经典分类模型朴素贝叶斯解读

那么,朴素贝叶斯模型得公式就调整为:

【NLP】经典分类模型朴素贝叶斯解读

对于所有类别来说,P(x)相同,所以上式可以简化为:

【NLP】经典分类模型朴素贝叶斯解读

好了,这就是朴素贝叶斯模型基础理论的所有内容了。


到这里,反应快的同学就会说:“你说了这么多原理和公式,那么这个模型到底是怎么训练和预测的呢?”下面我们就来讨论这个问题。


3 朴素贝叶斯模型的训练和预测

我们好好看看朴素贝叶斯模型最后的表达式,带计算的参数有P(c),P(x_i|c)。训练的过程,其实就是计算所有的P(c),P(x_i|c)的过程。


假设数据集为D,Dc表示数据集中C类样本组成得集合。|D|表示数据集中样本的个数,|Dc|表示C类样本的个数。


那么P(c)可以如下表示:

【NLP】经典分类模型朴素贝叶斯解读

P(x_i|c)可以用下式表示:

【NLP】经典分类模型朴素贝叶斯解读

|Dc,x_i|表示样本属于c类,第i个属性为x_i的样本的数目。在已知数据集的情况下,上面两个式字都很容易计算,得到所有P(c)和P(x_i|c)后,就完成了学习的过程。


那么,当来了一个新样本,该如何对该样本的类别进行预测呢?


假设新样本X(x_1,x_2,_x_3,....x_m),总共有n个类别。根据最终的贝叶斯公式

【NLP】经典分类模型朴素贝叶斯解读

预测步骤如下:

(1)根据训练获得的概率值矩阵,第1个类别的P(c_1)和P(x_1|c_1),P(x_2|c_1),...P(x_m|c_1),并计算他们的乘积,得到属于第一个类别的概率

(2)同上,计算样本属于其他类别的概率

(3)取概率最大的类别为预测样本的类别

这里总结一下:

朴素贝叶斯模型在训练过程,利用数据集D,计算P(c),P(x_i|c)。在预测时,输入样本,利用贝叶斯公式,计算n个类别的概率,最后输出概率最大的那个类别,作为预测的类别。

【NLP】经典分类模型朴素贝叶斯解读

总结


整个看下来,朴素贝叶斯模型的本质是针对样本属性的统计概率模型。要想朴素贝叶斯模型的效果好,前期的特征工程和数据清洗是非常重要的工作。早期的机器学习分类模型,特征选择是至关重要的工作,直接决定了模型的效果,这点与现在的深度学模型有很大的差别。神经网络中,通常是在模型内进行特征提取与学习,这就大大减少了特征工程方面的工作。


这是NLP基础理论系列文章中最后一篇机器学习方面的文章了,后面开始介绍深度学习相关的内容了。其他经典的模型,例如SVM,决策树,EM等,如有需要,大家可以留言,小Dream哥视情况,要不要再补上。


下期预告:递归神经网络RNN

NLP群推荐

【NLP】经典分类模型朴素贝叶斯解读

有三AI建立了一个NLP群,便于有志者相互交流。现人数较多,不便贴二维码。感兴趣的同学可以微信搜索jen104,备注"加入有三AI NLP群"。

知识星球推荐

【NLP】经典分类模型朴素贝叶斯解读
【NLP】经典分类模型朴素贝叶斯解读

有三AI知识星球,内设8大学习板块,包括深度学习模型解读“网络结构1000问”,覆盖传统图像算法/机器学习/深度学习等内容的有奖“看图猜技术”,不常为人所知的“数据集”,优质“GitHub项目”推荐,优质AI电子书“AI书籍”,容易忽略的小问题“AI1000问”,浓缩领域精华的“AI知识汇总”,以及众筹合作的开发“项目”。


转载文章请后台联系

侵权必究

【NLP】经典分类模型朴素贝叶斯解读

往期精选



以上是关于第10天:NLP补充——朴素贝叶斯(Naive-Bayes)的主要内容,如果未能解决你的问题,请参考以下文章

AI Live 分享第二弹中文NLP-文本分类方法之朴素贝叶斯分类器

NLP经典分类模型朴素贝叶斯解读

NLP实战系列朴素贝叶斯文本分类实战

NLP系列_朴素贝叶斯实战与进阶

NLP系列_朴素贝叶斯实战与进阶

02-NLP-02-朴素贝叶斯