公开可用的垃圾邮件过滤器训练集[关闭]

Posted 2023-02-16

技术标签:

【中文标题】公开可用的垃圾邮件过滤器训练集[关闭]【英文标题】：Publicly Available Spam Filter Training Set [closed] 【发布时间】：2011-06-12 06:06:27 【问题描述】：

我是机器学习的新手，对于我的第一个项目，我想编写一个朴素贝叶斯垃圾邮件过滤器。我想知道是否有任何公开可用的标记为垃圾邮件/非垃圾邮件的训练集，最好是纯文本而不是关系数据库的转储（除非他们漂亮地打印那些？）。

我知道存在这样一个公开可用的数据库，用于其他类型的文本分类，特别是新闻文章文本。我只是无法为电子邮件找到相同的东西。

【问题讨论】：

如果您在 2011 年与我们在一起，请在 Gmail 中查看您的垃圾邮件箱。应该是相当一致的垃圾邮件来源。 ;) 我的 Gmail 账户里只有大约 50 封垃圾邮件，每封邮件都会在 30 天后被删除。令人惊讶的是，我一开始并没有收到很多垃圾邮件。 【参考方案1】：

这就是我要找的东西：http://untroubled.org/spam/

此档案包含大约 1 GB 的压缩累积垃圾邮件，可追溯到 1998 年至 2011 年。现在我只需要接收非垃圾邮件即可。因此，我将使用 getmail 程序和mattcutts.com 上的教程查询我自己的 Gmail

【讨论】：

谢谢！在2017-05-30 05:34 之前，此存档是最新的垃圾邮件！！！这是 gr8 链接【参考方案2】：

当然，有 Spambase，据我所知，它是机器学习文献中被引用最多的垃圾邮件数据集。

我多次使用过这个数据集；每次我都为这个数据集的格式化和文档付出了多少努力而印象深刻。

Spambase 集的一些特征：

4601 个数据点——全部完成

每个包含 58 个特征（属性）

每个数据点都被标记为“垃圾邮件”或 '没有垃圾邮件'

大约。 40% 被标记为垃圾邮件

的特征，都是连续的（相对于离散）

代表特征：平均连续的资本序列字母

垃圾邮件库存档在UCI Machine Learning Repository；此外，它还可以在 Website 上获得，以获取 Hastie 等人的优秀 ML/统计计算论文统计学习要素。

【讨论】：

这似乎并没有实际包含电子邮件文本，而是一组特定单词的计数。也许我错过了在哪里可以找到内容？没有电子邮件文本？再次查看构成数据集的 58 个特征——其中大部分完全来自电子邮件文本。原始电子邮件文本需要仔细解析成特征，然后才能在朴素贝叶斯中使用。对，但我想要原始文本，以便决定哪些功能是相关的。这是一次学习经历，所以我想从头开始。哇，那个 Spambase 存档的日期是 1999-07-01，比古老的 SpamAssassin public corpus (2002-2005) 要老得多。从那时起，垃圾邮件发生了很大变化！【参考方案3】：

SpamAssassin 包含垃圾邮件和非垃圾邮件的 public corpus，尽管它已经有几年没有更新了。阅读 readme.html 文件以了解其中的内容。

【讨论】：

【参考方案4】：

您可以考虑查看 TREC 垃圾邮件/火腿语料库（我认为这是从法庭案件中公开的来自安然的电子邮件集合）。 TREC 通常会运行一堆竞争性的文本处理任务，因此它可能会为您提供一些比较参考。

缺点是它们以原始 mbox 格式存储，尽管有多种语言可用的解析器（Apache Tika 就是一个很好的例子）。

该网页不是 TREC，但这似乎是对任务的一个很好的概述，并带有指向数据的链接：http://plg.uwaterloo.ca/~gvcormac/spam/

【讨论】：

这很好，自从发布我的问题后，我意识到很难使用 mbox 格式进行电子邮件转储。无论如何，我找到了一些数据，并决定只对其他内容进行分类（实际上是通过网络抓取 yelp cmets 来分类积极性）更容易。【参考方案5】：

可以在kaggle 找到更现代的垃圾邮件训练集。此外，您可以通过上传结果在他们的网站上测试分类器的准确性。

【讨论】：

【参考方案6】：

我也有一个答案，here 你可以找到一个每日更新的贝叶斯数据库用于初始训练，还可以找到一个每日创建的包含捕获的垃圾邮件的存档。您将在网站上找到如何使用它的说明。

【讨论】：

以上是关于公开可用的垃圾邮件过滤器训练集[关闭]的主要内容，如果未能解决你的问题，请参考以下文章

垃圾邮件过滤器 - Python 新手

关于使用独立数据集通过 weka 验证文本分类的问题

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的关联规则？

如何用 Java 利用贝叶斯算法实现垃圾邮件过滤

在贝叶斯垃圾邮件过滤器中计算令牌成为垃圾邮件的概率

目前最好的垃圾邮件过滤算法