分类文本文件的训练和测试数据集

Posted

技术标签:

【中文标题】分类文本文件的训练和测试数据集【英文标题】:Training and Testing Data set for classification text file 【发布时间】:2016-01-25 18:36:00 【问题描述】:

假设我们有 10000 个文本文件,我们想将其分类为政治、健康、天气、体育、科学、教育、...... 我需要用于文本文档分类的训练数据集,我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。 要么 有没有其他方法可以完成分类..我是机器学习的新手请完整解释你的答案。

例子:

     **Sentence**                                         **Output**

1)奥巴马赢了选举。 ----------------------------------------------------------->政治

2) 印度以 10 个小门获胜 ---------------------------------------- ------>运动

3) 烟草更危险 ----------------------------------------- ---->健康

4) 牛顿运动定律可以应用于汽车-------------->科学

任何方式将这些句子分类到各自的类别中

【问题讨论】:

欢迎来到 ***。请阅读并遵循帮助文档中的发布指南。 on topic 适用于此。 【参考方案1】:

你试过用谷歌搜索吗?有大量用于文本分类的数据集。经典的一个是 Reuters-21578 (https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection),另一个著名的,几乎在每本 ML 书中都提到的是 20 个新闻组:http://web.ist.utl.pt/acardoso/datasets/

但是还有很多其他的,一个 google 查询远离你。只需加载它们,根据需要稍微调整并在该数据集上训练您的分类器。

【讨论】:

我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入视为 我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入作为 trainingFiles.put(Classifier_NAME, NaiveBayesExample.class.getResource( Filename_HERE)); 好的——当您使用找到的其中一个文件来训练模型时发生了什么?您已经有了文件名;选择你想要的分类器,指定它,然后调用。 你好修剪,基本上是工作,但作为弱分类器 犯罪新闻归类为娱乐。所以我想要涵盖从政治到健康的各种新闻类别的数据集

以上是关于分类文本文件的训练和测试数据集的主要内容,如果未能解决你的问题,请参考以下文章

Java SVM 文本分类、训练和测试文件?

如何为 4 个类别的文本分类创建训练数据

如何从不同的数据框中指定训练集和测试集?

使用朴素贝叶斯的文本分类

weka中的一元类文本分类?

我应该如何在包含文本的训练集上使用机器学习分类器?