20 newsgroups数据介绍以及文本分类实例

Posted 2023-04-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了20 newsgroups数据介绍以及文本分类实例相关的知识，希望对你有一定的参考价值。

参考技术A 20 newsgroups 数据集18000篇新闻文章，一共涉及到20种话题，所以称作 20 newsgroups text dataset ，分文两部分：训练集和测试集，通常用来做文本分类.

sklearn提供了该数据的接口： sklearn.datasets.fetch_20newsgroups ，我们以sklearn的文档来解释下如何使用该数据集。

我们可以看到一共有20类：

我们看下数据 newsgroups_train 的一些属性

fetch_20newsgroups 的参数设置：

我们从输出可以看出，提取的TF-IDF 向量是非常稀疏的，超过30000维的特征才有159个非零特征

数据集地址： http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/news20.html
sklearn关于20newsgroup的介绍 http://scikit-learn.org/stable/datasets/twenty_newsgroups.html

文本分类，聚类数据源--webkb 20newsGroup R8

1.数据下载地址 http://pan.baidu.com/s/1ge9bJIN

2.这些数据已经分过类别-webkb 20newsGroup R8，预处理 -----分词 stemming 词频统计

3.这些数据数据下载地址 http://ana.cachopo.org/datasets-for-single-label-text-categorization

以上是关于20 newsgroups数据介绍以及文本分类实例的主要内容，如果未能解决你的问题，请参考以下文章

Machine Learning 23 -- 文本分类实例