LDA 用于文本分类的良好训练数据?

Posted

技术标签:

【中文标题】LDA 用于文本分类的良好训练数据?【英文标题】:Good training data for text classification by LDA? 【发布时间】:2015-06-17 00:21:18 【问题描述】:

我将基于 LDA 的内容分类为通用主题,例如音乐、技术、艺术、科学

这是我正在使用的过程,

9 个主题 -> 音乐技术艺术科学 .

9 个文档 -> Music.txtTechnology.txtArts.txtScience.txt等等等等。

我在每个文档(.txt 文件)中填写了大约 10,000 行我认为是“纯”分类内容的内容

然后我对一个测试文档进行分类,看看分类器的训练效果如何

我的问题是,

a.) 这是对文本进行分类的有效方法(使用上述步骤)吗?

b.) 我应该在哪里寻找“纯”主题内容来填充这些文件中的每一个?不太大的来源(文本数据> 1GB)

分类仅针对上述“通用”主题

【问题讨论】:

一个经典的免费分类文档来源是 Reuters-21578 文本分类集合,kdd.ics.uci.edu/databases/reuters21578/reuters21578.html。这里引用了许多其他免费和非免费的 NLP 语料库和工具:www-nlp.stanford.edu/links/statnlp.html。 【参考方案1】:

数据集问题: 如果您正在处理对实时用户提要进行分类,那么我想没有一个数据集可以满足您的要求。

因为如果新电影X 发布,它可能无法被您的分类数据集捕获,因为训练数据集现在已经过时了。

对于分类,我想使用最新数据集保持更新,使用 twitter 训练数据集。开发动态算法,使用最新更新的推文数据集更新分类器。您可以为您选择的每个类别选择前 15-20 个哈希标签,以获得每个类别最相关的数据集。

分类器:

大多数分类器都使用bag of words model,您可以尝试各种分类器,看看哪种分类器效果最好。见:

    http://www.nltk.org/howto/classify.html http://scikit-learn.org/stable/supervised_learning.html

【讨论】:

【参考方案2】:

我建议您对所使用的每个课程都使用词袋(弓)。或向量,其中每列是与您要定位的类相关的重要关键字的频率。

关于您拥有 DBPedia 的词典,如 yves 或WordNet。

【讨论】:

【参考方案3】:

a.)最简单的解决方案肯定是k-最近邻算法(knn)。事实上,它会使用重叠指标对具有分类内容的新文本进行分类。

你可以在这里找到资源:https://github.com/search?utf8=✓&q=knn+text&type=Repositories&ref=searchresults

【讨论】:

【参考方案4】:

a) 您描述的方法听起来不错,但一切都取决于您正在使用的标记 LDA 的实现。我知道的最好的实现之一是Stanford Topic Modeling Toolbox。它不再被积极开发,但当我使用它时它工作得很好。

b) 您可以在 DBPedia 上查找主题内容,它具有主题/实体的结构化本体,以及指向这些主题/实体的***文章的链接。

【讨论】:

以上是关于LDA 用于文本分类的良好训练数据?的主要内容,如果未能解决你的问题,请参考以下文章

词袋模型(新闻文本分类)

分类 LDA 与 TFIDF

用于分类的 Python 矢量化 [重复]

基于LDA主题模型的短文本分类

文档主题生成模型(LDA)

分类文本文件的训练和测试数据集