学习朴素贝叶斯分类实例-单词纠正问题
Posted 机器学习研究会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习朴素贝叶斯分类实例-单词纠正问题相关的知识,希望对你有一定的参考价值。
这篇文章通俗的讲解了朴素贝叶斯算法,通过回忆,我们知道算法公式如下:
下面我们看一个问题去理解贝叶斯公式及其变形:
现在我们看到用户输入了一个不在字典里的单词,如thew,我们如何去知道用户实际想输入的单词是什么?
我们可以将这个问题抽象成求:
我们现在不妨假设空间有the 和 thaw (为了简化问题,我们的假设空间目前只有the 和thaw)
实际问题中用的输入法拼写改正器一般只提取编辑距离为2以内的所有已知单词作为假设空间的假设,这样避免放入所有单词。
但是就算是这样的假设,满足的数据量依旧很大,可能有the , they , thaw 等等,所以本文这个问题的假设空间只放入两个元素去讨论(只是为了走完例子,帮助理解,其它原理相同)。
我们现在应用贝叶斯公式,有:
而我们知道,实际上P(他实际输入的单词)是一个定值,因为是已经发生的事实,概率已知,那么我们就可以采用贝叶斯公式的变形:
这里写成:
根据假设空间{ the ,thaw },这里有:
我们就比较P(thaw|thew)与p(the|thew)的概率谁大谁小即可!
原文链接:
http://mp.weixin.qq.com/s/dV0SQo1vaggXuKQCjHR9ew
以上是关于学习朴素贝叶斯分类实例-单词纠正问题的主要内容,如果未能解决你的问题,请参考以下文章