LDA 用于文本分类的良好训练数据？

Posted 2023-03-12

技术标签:

【中文标题】LDA 用于文本分类的良好训练数据？【英文标题】：Good training data for text classification by LDA? 【发布时间】：2015-06-17 00:21:18 【问题描述】：

我将基于 LDA 的内容分类为通用主题，例如音乐、技术、艺术、科学

这是我正在使用的过程，

9 个主题 -> 音乐、技术、艺术、科学等.

9 个文档 -> Music.txt、Technology.txt、Arts.txt、Science.txt等等等等。

我在每个文档（.txt 文件）中填写了大约 10,000 行我认为是“纯”分类内容的内容

然后我对一个测试文档进行分类，看看分类器的训练效果如何

我的问题是，

a.) 这是对文本进行分类的有效方法（使用上述步骤）吗？

b.) 我应该在哪里寻找“纯”主题内容来填充这些文件中的每一个？不太大的来源（文本数据> 1GB）

分类仅针对上述“通用”主题

【问题讨论】：

一个经典的免费分类文档来源是 Reuters-21578 文本分类集合，kdd.ics.uci.edu/databases/reuters21578/reuters21578.html。这里引用了许多其他免费和非免费的 NLP 语料库和工具：www-nlp.stanford.edu/links/statnlp.html。 【参考方案1】：

数据集问题：如果您正在处理对实时用户提要进行分类，那么我想没有一个数据集可以满足您的要求。

因为如果新电影X 发布，它可能无法被您的分类数据集捕获，因为训练数据集现在已经过时了。

对于分类，我想使用最新数据集保持更新，使用 twitter 训练数据集。开发动态算法，使用最新更新的推文数据集更新分类器。您可以为您选择的每个类别选择前 15-20 个哈希标签，以获得每个类别最相关的数据集。

分类器：

大多数分类器都使用bag of words model，您可以尝试各种分类器，看看哪种分类器效果最好。见：

http://www.nltk.org/howto/classify.html http://scikit-learn.org/stable/supervised_learning.html

【讨论】：

【参考方案2】：

我建议您对所使用的每个课程都使用词袋（弓）。或向量，其中每列是与您要定位的类相关的重要关键字的频率。

关于您拥有 DBPedia 的词典，如 yves 或WordNet。

【讨论】：

【参考方案3】：