朴素贝叶斯垃圾邮件过滤问题

Posted

技术标签:

【中文标题】朴素贝叶斯垃圾邮件过滤问题【英文标题】:naive bayesian spam filter question 【发布时间】:2011-02-06 18:14:45 【问题描述】:

我计划使用朴素贝叶斯分类模型实施垃圾邮件过滤器。

在网上我看到了很多关于朴素贝叶斯分类的信息,但问题是它包含了很多数学内容,而不是清楚地说明它是如何完成的。 问题是我更像是一个程序员而不是一个数学家(是的,我在学校学过概率和贝​​叶斯定理,但是很长一段时间都没有接触过,而且我没有奢侈现在学习它(有将近 3 周的时间来设计一个工作原型)。

因此,如果有人可以解释或指出我为程序员而不是数学家解释的位置,那将是一个很大的帮助。

PS:顺便说一下,如果你想知道的话,我必须用 C 来实现它。 :(

问候, 微内核

【问题讨论】:

接受它并学习数学。如果你不这样做,你就永远没有希望提高自己,你将永远只是更大游戏中的一颗棋子。 @gmatt:是的,我同意你的看法。但这并不是说我数学不好或者我讨厌数学。顺便说一句,我最喜欢的科目@school 曾经是数学。但是现在我没有时间重新学习和实现(考虑一下,我最多有 3 周的时间来做这个,用 C 来实现,这是一个周末课程的项目,除此之外我还有一份全职工作(不用说从我身上吸走活力))。但我仍然非常同意你的观点,我真的很想学习。谢谢:) 【参考方案1】:

你看过 dspam 吗?

http://dspam.irontec.com/faq.shtml#1.0

http://www.nuclearelephant.com/

【讨论】:

【参考方案2】:

我强烈推荐Andrew Moore's tutorials,我认为你应该从this one开始。

【讨论】:

【参考方案3】:

您还可以查看POPFile,一个开源垃圾邮件过滤引擎。

【讨论】:

【参考方案4】:

你可以试试这个website。它有一些源代码。

【讨论】:

【参考方案5】:

Programming Collective Intelligence 这本书的章节涵盖了这种方法和其他方法。第 6 章无需参考前几章即可理解,写得清晰,只讨论完成工作所需的最少数学知识。

【讨论】:

以上是关于朴素贝叶斯垃圾邮件过滤问题的主要内容,如果未能解决你的问题,请参考以下文章

机器学习贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现

吴裕雄--天生自然python机器学习:使用朴素贝叶斯过滤垃圾邮件

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的关联规则?

使用朴素贝叶斯算法简单实现垃圾邮件过滤

朴素贝叶斯分类器-垃圾邮件过滤

数据挖掘实例:朴素贝叶斯分类器进行垃圾邮件过滤