公开可用的垃圾邮件过滤器训练集[关闭]
Posted
技术标签:
【中文标题】公开可用的垃圾邮件过滤器训练集[关闭]【英文标题】:Publicly Available Spam Filter Training Set [closed] 【发布时间】:2011-06-12 06:06:27 【问题描述】:我是机器学习的新手,对于我的第一个项目,我想编写一个朴素贝叶斯垃圾邮件过滤器。我想知道是否有任何公开可用的标记为垃圾邮件/非垃圾邮件的训练集,最好是纯文本而不是关系数据库的转储(除非他们漂亮地打印那些?)。
我知道存在这样一个公开可用的数据库,用于其他类型的文本分类,特别是新闻文章文本。我只是无法为电子邮件找到相同的东西。
【问题讨论】:
如果您在 2011 年与我们在一起,请在 Gmail 中查看您的垃圾邮件箱。应该是相当一致的垃圾邮件来源。 ;) 我的 Gmail 账户里只有大约 50 封垃圾邮件,每封邮件都会在 30 天后被删除。令人惊讶的是,我一开始并没有收到很多垃圾邮件。 【参考方案1】:这就是我要找的东西:http://untroubled.org/spam/
此档案包含大约 1 GB 的压缩累积垃圾邮件,可追溯到 1998 年至 2011 年。现在我只需要接收非垃圾邮件即可。因此,我将使用 getmail 程序和mattcutts.com 上的教程查询我自己的 Gmail
【讨论】:
谢谢!在2017-05-30 05:34
之前,此存档是最新的垃圾邮件!!!
这是 gr8 链接【参考方案2】:
当然,有 Spambase,据我所知,它是机器学习文献中被引用最多的垃圾邮件数据集。
我多次使用过这个数据集;每次我都为这个数据集的格式化和文档付出了多少努力而印象深刻。
Spambase 集的一些特征:
4601 个数据点——全部完成
每个包含 58 个特征 (属性)
每个数据点都被标记为“垃圾邮件”或 '没有垃圾邮件'
大约。 40% 被标记为垃圾邮件
的特征,都是连续的 (相对于离散)
代表特征:平均 连续的资本序列 字母
垃圾邮件库存档在UCI Machine Learning Repository;此外,它还可以在 Website 上获得,以获取 Hastie 等人的优秀 ML/统计计算论文统计学习要素。
【讨论】:
这似乎并没有实际包含电子邮件文本,而是一组特定单词的计数。也许我错过了在哪里可以找到内容? 没有电子邮件文本?再次查看构成数据集的 58 个特征——其中大部分完全来自电子邮件文本。原始电子邮件文本需要仔细解析成特征,然后才能在朴素贝叶斯中使用。 对,但我想要原始文本,以便决定哪些功能是相关的。这是一次学习经历,所以我想从头开始。 哇,那个 Spambase 存档的日期是 1999-07-01,比古老的 SpamAssassin public corpus (2002-2005) 要老得多。从那时起,垃圾邮件发生了很大变化!【参考方案3】:SpamAssassin 包含垃圾邮件和非垃圾邮件的 public corpus,尽管它已经有几年没有更新了。阅读 readme.html 文件以了解其中的内容。
【讨论】:
【参考方案4】:您可以考虑查看 TREC 垃圾邮件/火腿语料库(我认为这是从法庭案件中公开的来自安然的电子邮件集合)。 TREC 通常会运行一堆竞争性的文本处理任务,因此它可能会为您提供一些比较参考。
缺点是它们以原始 mbox 格式存储,尽管有多种语言可用的解析器(Apache Tika 就是一个很好的例子)。
该网页不是 TREC,但这似乎是对任务的一个很好的概述,并带有指向数据的链接:http://plg.uwaterloo.ca/~gvcormac/spam/
【讨论】:
这很好,自从发布我的问题后,我意识到很难使用 mbox 格式进行电子邮件转储。无论如何,我找到了一些数据,并决定只对其他内容进行分类(实际上是通过网络抓取 yelp cmets 来分类积极性)更容易。【参考方案5】:可以在kaggle 找到更现代的垃圾邮件训练集。此外,您可以通过上传结果在他们的网站上测试分类器的准确性。
【讨论】:
【参考方案6】:我也有一个答案,here 你可以找到一个每日更新的贝叶斯数据库用于初始训练,还可以找到一个每日创建的包含捕获的垃圾邮件的存档。您将在网站上找到如何使用它的说明。
【讨论】:
以上是关于公开可用的垃圾邮件过滤器训练集[关闭]的主要内容,如果未能解决你的问题,请参考以下文章