分类文本文件的训练和测试数据集

Posted 2023-03-12

技术标签:

【中文标题】分类文本文件的训练和测试数据集【英文标题】：Training and Testing Data set for classification text file 【发布时间】：2016-01-25 18:36:00 【问题描述】：

假设我们有 10000 个文本文件，我们想将其分类为政治、健康、天气、体育、科学、教育、...... 我需要用于文本文档分类的训练数据集，我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。要么有没有其他方法可以完成分类..我是机器学习的新手请完整解释你的答案。

例子：

     **Sentence**                                         **Output**

1）奥巴马赢了选举。 ----------------------------------------------------------->政治

2) 印度以 10 个小门获胜 ---------------------------------------- ------>运动

3) 烟草更危险 ----------------------------------------- ---->健康

4) 牛顿运动定律可以应用于汽车-------------->科学

任何方式将这些句子分类到各自的类别中

【问题讨论】：

欢迎来到 ***。请阅读并遵循帮助文档中的发布指南。 on topic 适用于此。 【参考方案1】：

你试过用谷歌搜索吗？有大量用于文本分类的数据集。经典的一个是 Reuters-21578 (https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection)，另一个著名的，几乎在每本 ML 书中都提到的是 20 个新闻组：http://web.ist.utl.pt/acardoso/datasets/

但是还有很多其他的，一个 google 查询远离你。只需加载它们，根据需要稍微调整并在该数据集上训练您的分类器。

【讨论】：

我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入视为我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入作为 trainingFiles.put(Classifier_NAME, NaiveBayesExample.class.getResource( Filename_HERE)); 好的——当您使用找到的其中一个文件来训练模型时发生了什么？您已经有了文件名；选择你想要的分类器，指定它，然后调用。你好修剪，基本上是工作，但作为弱分类器犯罪新闻归类为娱乐。所以我想要涵盖从政治到健康的各种新闻类别的数据集

以上是关于分类文本文件的训练和测试数据集的主要内容，如果未能解决你的问题，请参考以下文章

Java SVM 文本分类、训练和测试文件？

我应该如何在包含文本的训练集上使用机器学习分类器？