目前最好的垃圾邮件过滤算法
Posted
技术标签:
【中文标题】目前最好的垃圾邮件过滤算法【英文标题】:Currently best spam filter algorithm 【发布时间】:2011-05-29 12:36:49 【问题描述】:目前检测垃圾邮件的最佳方法是什么?尤其是手机短信。 有没有资源或比较分析?
【问题讨论】:
您是从程序员的角度还是从用户的角度提问?即,您想要实现垃圾邮件检测算法还是想要检测自己电子邮件中的垃圾邮件? 我从程序员或研究人员的角度提问。我正在尝试实现垃圾邮件过滤器,但目前对算法知之甚少 【参考方案1】:研究监督学习技术是件好事。多项研究表明,多项朴素贝叶斯分类器已成功用于垃圾邮件过滤。如果它适用于垃圾邮件过滤,那么它应该适用于 SMS 过滤。您需要的是一个巨大的示例垃圾短信文本数据集,并用它训练分类器。
此外,研究支持向量机可能会有所帮助,它;尽管在垃圾邮件过滤中的应用较少;是一种更强大的技术。
此外,仅在原始文本上训练算法可能并不是最好的方法。 Mehran Sahami 从 1998 年开始进行的一项研究发现,当他们考虑其他启发式方法时(例如,电子邮件是否发送到邮件列表?电子邮件是否从以“.edu”结尾的域名发送? “.com”、“.org”?电子邮件是否包含多个标点符号(“!!!”)?等等)。
但是从多项式朴素贝叶斯分类器开始。它的实现非常简单,而且非常易于使用,而且从个人经验来看:它的培训时间也非常短。
【讨论】:
【参考方案2】:据我了解,大多数现代垃圾邮件过滤是Bayes' theorem 的实现和一些启发式方法的组合,例如发件人黑名单、标准合规性、发送模式。
在手机网络中最容易实现这一点的地方可能是SMS message centre,因为它的容量更大,这使得很多启发式算法更容易实现。
【讨论】:
【参考方案3】:使用多种算法和启发式算法(而不是“最佳”方法)是保护您的网络和订阅者免受垃圾邮件、欺诈、恶意内容、网络欺凌、身份盗用、病毒等侵害的好方法。
Cloudmark 和它的各种合作伙伴和竞争是开始寻找的好地方。
【讨论】:
【参考方案4】:为什么你需要事后检测垃圾邮件,prevent it in the butt ...再次,in the bud ...
更新: 黑帽 SEO/SEm 和犯罪分子很容易且广泛地使用过滤器来将竞争对手列入黑名单/转储。 此外,它们具有追溯性,因此注定总是落后于垃圾邮件技术的进步
【讨论】:
因为我正在开发应用客户端移动设备以上是关于目前最好的垃圾邮件过滤算法的主要内容,如果未能解决你的问题,请参考以下文章
机器学习贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现