朴素贝叶斯垃圾邮件过滤问题
Posted
技术标签:
【中文标题】朴素贝叶斯垃圾邮件过滤问题【英文标题】:naive bayesian spam filter question 【发布时间】:2011-02-06 18:14:45 【问题描述】:我计划使用朴素贝叶斯分类模型实施垃圾邮件过滤器。
在网上我看到了很多关于朴素贝叶斯分类的信息,但问题是它包含了很多数学内容,而不是清楚地说明它是如何完成的。 问题是我更像是一个程序员而不是一个数学家(是的,我在学校学过概率和贝叶斯定理,但是很长一段时间都没有接触过,而且我没有奢侈现在学习它(有将近 3 周的时间来设计一个工作原型)。
因此,如果有人可以解释或指出我为程序员而不是数学家解释的位置,那将是一个很大的帮助。
PS:顺便说一下,如果你想知道的话,我必须用 C 来实现它。 :(
问候, 微内核
【问题讨论】:
接受它并学习数学。如果你不这样做,你就永远没有希望提高自己,你将永远只是更大游戏中的一颗棋子。 @gmatt:是的,我同意你的看法。但这并不是说我数学不好或者我讨厌数学。顺便说一句,我最喜欢的科目@school 曾经是数学。但是现在我没有时间重新学习和实现(考虑一下,我最多有 3 周的时间来做这个,用 C 来实现,这是一个周末课程的项目,除此之外我还有一份全职工作(不用说从我身上吸走活力))。但我仍然非常同意你的观点,我真的很想学习。谢谢:) 【参考方案1】:你看过 dspam 吗?
http://dspam.irontec.com/faq.shtml#1.0
http://www.nuclearelephant.com/
【讨论】:
【参考方案2】:我强烈推荐Andrew Moore's tutorials,我认为你应该从this one开始。
【讨论】:
【参考方案3】:您还可以查看POPFile,一个开源垃圾邮件过滤引擎。
【讨论】:
【参考方案4】:你可以试试这个website。它有一些源代码。
【讨论】:
【参考方案5】:Programming Collective Intelligence 这本书的章节涵盖了这种方法和其他方法。第 6 章无需参考前几章即可理解,写得清晰,只讨论完成工作所需的最少数学知识。
【讨论】:
以上是关于朴素贝叶斯垃圾邮件过滤问题的主要内容,如果未能解决你的问题,请参考以下文章
机器学习贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现