20 newsgroups数据介绍以及文本分类实例

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了20 newsgroups数据介绍以及文本分类实例相关的知识,希望对你有一定的参考价值。

参考技术A 20 newsgroups 数据集18000篇新闻文章,一共涉及到20种话题,所以称作 20 newsgroups text dataset ,分文两部分:训练集和测试集,通常用来做文本分类.

sklearn提供了该数据的接口: sklearn.datasets.fetch_20newsgroups ,我们以sklearn的文档来解释下如何使用该数据集。

我们可以看到一共有20类:

我们看下数据 newsgroups_train 的一些属性

fetch_20newsgroups 的参数设置:

我们从输出可以看出,提取的TF-IDF 向量是非常稀疏的,超过30000维的特征才有159个非零特征

数据集地址: http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/news20.html
sklearn关于20newsgroup的介绍 http://scikit-learn.org/stable/datasets/twenty_newsgroups.html

文本分类,聚类数据源--webkb 20newsGroup R8

1.数据下载地址 http://pan.baidu.com/s/1ge9bJIN

2.这些数据已经分过类别-webkb  20newsGroup   R8,预处理 -----分词 stemming 词频统计

3.这些数据数据下载地址  http://ana.cachopo.org/datasets-for-single-label-text-categorization

以上是关于20 newsgroups数据介绍以及文本分类实例的主要内容,如果未能解决你的问题,请参考以下文章

Machine Learning 23 -- 文本分类实例

文本分类——NaiveBayes

文本分类——NaiveBayes

应用scikit-learn做文本分类

朴素贝叶斯算法实现

Python-基于向量机SVM的文本分类