学习朴素贝叶斯分类实例-单词纠正问题

Posted 机器学习研究会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习朴素贝叶斯分类实例-单词纠正问题相关的知识,希望对你有一定的参考价值。



点击上方 “机器学习研究会”可以订阅哦
摘要
 

1  朴素贝叶斯算法


这篇文章通俗的讲解了朴素贝叶斯算法,通过回忆,我们知道算法公式如下:





2  单词纠正问题



下面我们看一个问题去理解贝叶斯公式及其变形:


现在我们看到用户输入了一个不在字典里的单词,如thew,我们如何去知道用户实际想输入的单词是什么?


我们可以将这个问题抽象成求:


【学习】朴素贝叶斯分类实例-单词纠正问题


【学习】朴素贝叶斯分类实例-单词纠正问题


我们现在不妨假设空间有the 和 thaw (为了简化问题,我们的假设空间目前只有the 和thaw)


实际问题中用的入法拼写改正器一般只提取编辑距离为2以内的所有已知单词作为假设空间的假设,这样避免放入所有单词。


但是就算是这的假设,满足的数据量依旧很大,可能有the , they , thaw 等等,所以本文这个问题的假设空间只放入两个元素去讨论(只是为了走完例子,帮助理解,其它原理相同)。


我们现在应用贝叶斯公式,有:


【学习】朴素贝叶斯分类实例-单词纠正问题


而我们知道,实际上P(他实际输入的单词)是一个定值,因为是已经发生的事实,概率已知,那么我们就可以采用贝叶斯公式的变形:


【学习】朴素贝叶斯分类实例-单词纠正问题


这里写成:



根据假设空间{ the ,thaw },这里有:



我们就比较P(thaw|thew)与p(the|thew)的概率谁大谁小即可


原文链接:

http://mp.weixin.qq.com/s/dV0SQo1vaggXuKQCjHR9ew

“完整内容”请点击【阅读原文】
↓↓↓

以上是关于学习朴素贝叶斯分类实例-单词纠正问题的主要内容,如果未能解决你的问题,请参考以下文章

机器学习朴素贝叶斯应用实例

机器学习朴素贝叶斯应用实例

实战|朴素贝叶斯分类对文档进行分类

贝叶斯分类器(3)朴素贝叶斯分类器

通俗机器学习—朴素贝叶斯

朴素贝叶斯