20 newsgroups数据介绍以及文本分类实例
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了20 newsgroups数据介绍以及文本分类实例相关的知识,希望对你有一定的参考价值。
参考技术A 20 newsgroups 数据集18000篇新闻文章,一共涉及到20种话题,所以称作 20 newsgroups text dataset ,分文两部分:训练集和测试集,通常用来做文本分类.sklearn提供了该数据的接口: sklearn.datasets.fetch_20newsgroups ,我们以sklearn的文档来解释下如何使用该数据集。
我们可以看到一共有20类:
我们看下数据 newsgroups_train 的一些属性
fetch_20newsgroups 的参数设置:
我们从输出可以看出,提取的TF-IDF 向量是非常稀疏的,超过30000维的特征才有159个非零特征
数据集地址: http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/news20.html
sklearn关于20newsgroup的介绍 http://scikit-learn.org/stable/datasets/twenty_newsgroups.html
文本分类,聚类数据源--webkb 20newsGroup R8
1.数据下载地址 http://pan.baidu.com/s/1ge9bJIN
2.这些数据已经分过类别-webkb 20newsGroup R8,预处理 -----分词 stemming 词频统计
3.这些数据数据下载地址 http://ana.cachopo.org/datasets-for-single-label-text-categorization
以上是关于20 newsgroups数据介绍以及文本分类实例的主要内容,如果未能解决你的问题,请参考以下文章