机器学习入门-贝叶斯垃圾邮件过滤(原理)

Posted my-love-is-python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习入门-贝叶斯垃圾邮件过滤(原理)相关的知识,希望对你有一定的参考价值。

贝叶斯里面的参数原理

最大似然: 即最符合观测数据的最有优势,即p(D|h)最大

奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率

最大似然:

当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的

奥卡姆剃刀:

如果平面上有N个点,我们使用n-1阶的函数可以拟合出任何一个点,但是越高阶的曲线越不常见,因此p(N-1) << p(1) 和p(2) 一阶和二阶的概率

实例:垃圾分类的实例

p(h+|D) = p(D|h+) * p(h+) / p(D)  h+ 表示的是垃圾邮件, D表示的是一封邮件里面的词

这个公式表示的含义: p(h+) 表示的是垃圾邮件的概率, p(D|h+) 表示是邮件里面的词与垃圾邮件的相似度,这里使用的可以是词频化的向量也可以tf-dif的向量

相似度的比较的话,这里使用的余弦定理

p(d1, d2, d3...|h+) = p(d1|h+) * p(d2|d1, h+)... 

为了方便计算我们使用朴素贝叶斯来进行计算

p(d1, d2, d3..|h+) = p(d1|h+) * p(d2|h+) * p(d3|h+) .... p(d3|h+) 表示这个词在垃圾邮件出现的概率, 我们可以使用相似度来进行计算

 

以上是关于机器学习入门-贝叶斯垃圾邮件过滤(原理)的主要内容,如果未能解决你的问题,请参考以下文章

机器学习算法整理— 贝叶斯算法_实现垃圾邮件过滤

吴裕雄--天生自然python机器学习:使用朴素贝叶斯过滤垃圾邮件

机器学习算法整理— 贝叶斯算法_拼写纠正实例_垃圾邮件过滤实例

贝叶斯推断及其互联网应用:过滤垃圾邮件

机器学习实战︱基于朴素贝叶斯算法的垃圾信息的识别

朴素贝叶斯垃圾邮件过滤问题