分类文本文件的训练和测试数据集
Posted
技术标签:
【中文标题】分类文本文件的训练和测试数据集【英文标题】:Training and Testing Data set for classification text file 【发布时间】:2016-01-25 18:36:00 【问题描述】:假设我们有 10000 个文本文件,我们想将其分类为政治、健康、天气、体育、科学、教育、...... 我需要用于文本文档分类的训练数据集,我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。 要么 有没有其他方法可以完成分类..我是机器学习的新手请完整解释你的答案。
例子:
**Sentence** **Output**
1)奥巴马赢了选举。 ----------------------------------------------------------->政治
2) 印度以 10 个小门获胜 ---------------------------------------- ------>运动
3) 烟草更危险 ----------------------------------------- ---->健康
4) 牛顿运动定律可以应用于汽车-------------->科学
任何方式将这些句子分类到各自的类别中
【问题讨论】:
欢迎来到 ***。请阅读并遵循帮助文档中的发布指南。 on topic 适用于此。 【参考方案1】:你试过用谷歌搜索吗?有大量用于文本分类的数据集。经典的一个是 Reuters-21578 (https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection),另一个著名的,几乎在每本 ML 书中都提到的是 20 个新闻组:http://web.ist.utl.pt/acardoso/datasets/
但是还有很多其他的,一个 google 查询远离你。只需加载它们,根据需要稍微调整并在该数据集上训练您的分类器。
【讨论】:
我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入视为 我已经下载了 Reuters 和 20 newsgroup 。但我的问题是我不知道如何在我的系统中使用它们。我的朴素贝叶斯分类器将输入作为 trainingFiles.put(Classifier_NAME, NaiveBayesExample.class.getResource( Filename_HERE)); 好的——当您使用找到的其中一个文件来训练模型时发生了什么?您已经有了文件名;选择你想要的分类器,指定它,然后调用。 你好修剪,基本上是工作,但作为弱分类器 犯罪新闻归类为娱乐。所以我想要涵盖从政治到健康的各种新闻类别的数据集以上是关于分类文本文件的训练和测试数据集的主要内容,如果未能解决你的问题,请参考以下文章