大型分类文档语料库

Posted

技术标签:

【中文标题】大型分类文档语料库【英文标题】:Large classification document corpus 【发布时间】:2015-11-21 16:16:28 【问题描述】:

谁能指出我用于分类的一些大型语料库?

但总的来说,我不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的大小。

我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说非常小。

【问题讨论】:

提供了答案。如果没有帮助,请接受或评论 【参考方案1】:

Huge Reddit archive spanning 10/2007 to 5/2015

【讨论】:

谢谢,但这看起来不像是带标签的、可分类的数据集? 标签到底是什么意思? @maj 我的意思是一个文档语料库,其中每个文档您都知道它属于哪个类别,例如 - 体育、历史、音乐等。 存档是 JSON 格式,因此 tet 很容易解析出来,并且作为 Reddit,组织良好。 r / Drugs和drugs之间的区别是语义恕我直言。它没有完全为 ML 格式化,但它与我见过的任何数据集一样接近,尤其是这种大小和范围的数据集。如果您找到了您正在寻找的东西,请告诉我们,因为我们也可能会用到它。【参考方案2】:

最流行的文本分类评估数据集是:

Reuters Dataset 20 Newsgroup Dataset

但是,上述数据集不符合“大型”要求。以下数据集可能符合您的条件:

Commoncrawl您可以通过提取在元标记中具有特定关键字的文章并应用于文档分类来构建大型语料库。

Enron Email Dataset你可以在这里做各种不同的分类任务。

Topic Annotated Enron Dataset。不是免费的,但已经标记并满足您的大型语料库要求

你可以浏览其他公开的datasets here

除了上述之外,您可能还需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器,帮助您根据您选择的主题开发自定义语料库

更新:

已经创建了我上面提到的自定义语料库构建器模块,但忘记链接它News Corpus Builder

【讨论】:

以上是关于大型分类文档语料库的主要内容,如果未能解决你的问题,请参考以下文章

Solr 方法来重新索引大型文档语料库

无论文档边界如何,都可以有效地计算大型语料库中的词频

用于文档分类的 scipy/sklearn 稀疏矩阵分解

R中的分类/预测

13-垃圾邮件分类2

从大型语料库中提取词频列表