公开可用的垃圾邮件过滤器训练集[关闭]

Posted

技术标签:

【中文标题】公开可用的垃圾邮件过滤器训练集[关闭]【英文标题】:Publicly Available Spam Filter Training Set [closed] 【发布时间】:2011-06-12 06:06:27 【问题描述】:

我是机器学习的新手,对于我的第一个项目,我想编写一个朴素贝叶斯垃圾邮件过滤器。我想知道是否有任何公开可用的标记为垃圾邮件/非垃圾邮件的训练集,最好是纯文本而不是关系数据库的转储(除非他们漂亮地打印那些?)。

我知道存在这样一个公开可用的数据库,用于其他类型的文本分类,特别是新闻文章文本。我只是无法为电子邮件找到相同的东西。

【问题讨论】:

如果您在 2011 年与我们在一起,请在 Gmail 中查看您的垃圾邮件箱。应该是相当一致的垃圾邮件来源。 ;) 我的 Gmail 账户里只有大约 50 封垃圾邮件,每封邮件都会在 30 天后被删除。令人惊讶的是,我一开始并没有收到很多垃圾邮件。 【参考方案1】:

这就是我要找的东西:http://untroubled.org/spam/

此档案包含大约 1 GB 的压缩累积垃圾邮件,可追溯到 1998 年至 2011 年。现在我只需要接收非垃圾邮件即可。因此,我将使用 getmail 程序和mattcutts.com 上的教程查询我自己的 Gmail

【讨论】:

谢谢!在2017-05-30 05:34 之前,此存档是最新的垃圾邮件!!! 这是 gr8 链接【参考方案2】:

当然,有 Spambase,据我所知,它是机器学习文献中被引用最多的垃圾邮件数据集。

我多次使用过这个数据集;每次我都为这个数据集的格式化和文档付出了多少努力而印象深刻。

Spambase 集的一些特征:

4601 个数据点——全部完成

每个包含 58 个特征 (属性)

每个数据点都被标记为“垃圾邮件”或 '没有垃圾邮件'

大约。 40% 被标记为垃圾邮件

的特征,都是连续的 (相对于离散)

代表特征:平均 连续的资本序列 字母

垃圾邮件库存档在UCI Machine Learning Repository;此外,它还可以在 Website 上获得,以获取 Hastie 等人的优秀 ML/统计计算论文统计学习要素

【讨论】:

这似乎并没有实际包含电子邮件文本,而是一组特定单词的计数。也许我错过了在哪里可以找到内容? 没有电子邮件文本?再次查看构成数据集的 58 个特征——其中大部分完全来自电子邮件文本。原始电子邮件文本需要仔细解析成特征,然后才能在朴素贝叶斯中使用。 对,但我想要原始文本,以便决定哪些功能是相关的。这是一次学习经历,所以我想从头开始。 哇,那个 Spambase 存档的日期是 1999-07-01,比古老的 SpamAssassin public corpus (2002-2005) 要老得多。从那时起,垃圾邮件发生了很大变化!【参考方案3】:

SpamAssassin 包含垃圾邮件和非垃圾邮件的 public corpus,尽管它已经有几年没有更新了。阅读 readme.html 文件以了解其中的内容。

【讨论】:

【参考方案4】:

您可以考虑查看 TREC 垃圾邮件/火腿语料库(我认为这是从法庭案件中公开的来自安然的电子邮件集合)。 TREC 通常会运行一堆竞争性的文本处理任务,因此它可能会为您提供一些比较参考。

缺点是它们以原始 mbox 格式存储,尽管有多种语言可用的解析器(Apache Tika 就是一个很好的例子)。

该网页不是 TREC,但这似乎是对任务的一个很好的概述,并带有指向数据的链接:http://plg.uwaterloo.ca/~gvcormac/spam/

【讨论】:

这很好,自从发布我的问题后,我意识到很难使用 mbox 格式进行电子邮件转储。无论如何,我找到了一些数据,并决定只对其他内容进行分类(实际上是通过网络抓取 yelp cmets 来分类积极性)更容易。【参考方案5】:

可以在kaggle 找到更现代的垃圾邮件训练集。此外,您可以通过上传结果在他们的网站上测试分类器的准确性。

【讨论】:

【参考方案6】:

我也有一个答案,here 你可以找到一个每日更新的贝叶斯数据库用于初始训练,还可以找到一个每日创建的包含捕获的垃圾邮件的存档。您将在网站上找到如何使用它的说明。

【讨论】:

以上是关于公开可用的垃圾邮件过滤器训练集[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

垃圾邮件过滤器 - Python 新手

关于使用独立数据集通过 weka 验证文本分类的问题

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的关联规则?

如何用 Java 利用贝叶斯算法实现垃圾邮件过滤

在贝叶斯垃圾邮件过滤器中计算令牌成为垃圾邮件的概率

目前最好的垃圾邮件过滤算法