LDA 用于文本分类的良好训练数据?
Posted
技术标签:
【中文标题】LDA 用于文本分类的良好训练数据?【英文标题】:Good training data for text classification by LDA? 【发布时间】:2015-06-17 00:21:18 【问题描述】:我将基于 LDA 的内容分类为通用主题,例如音乐、技术、艺术、科学
这是我正在使用的过程,
9 个主题 -> 音乐、技术、艺术、科学 等.
9 个文档 -> Music.txt、Technology.txt、Arts.txt、Science.txt等等等等。
我在每个文档(.txt 文件)中填写了大约 10,000 行我认为是“纯”分类内容的内容
然后我对一个测试文档进行分类,看看分类器的训练效果如何
我的问题是,
a.) 这是对文本进行分类的有效方法(使用上述步骤)吗?
b.) 我应该在哪里寻找“纯”主题内容来填充这些文件中的每一个?不太大的来源(文本数据> 1GB)
分类仅针对上述“通用”主题
【问题讨论】:
一个经典的免费分类文档来源是 Reuters-21578 文本分类集合,kdd.ics.uci.edu/databases/reuters21578/reuters21578.html。这里引用了许多其他免费和非免费的 NLP 语料库和工具:www-nlp.stanford.edu/links/statnlp.html。 【参考方案1】:数据集问题: 如果您正在处理对实时用户提要进行分类,那么我想没有一个数据集可以满足您的要求。
因为如果新电影X
发布,它可能无法被您的分类数据集捕获,因为训练数据集现在已经过时了。
对于分类,我想使用最新数据集保持更新,使用 twitter 训练数据集。开发动态算法,使用最新更新的推文数据集更新分类器。您可以为您选择的每个类别选择前 15-20 个哈希标签,以获得每个类别最相关的数据集。
分类器:
大多数分类器都使用bag of words model,您可以尝试各种分类器,看看哪种分类器效果最好。见:
-
http://www.nltk.org/howto/classify.html
http://scikit-learn.org/stable/supervised_learning.html
【讨论】:
【参考方案2】:我建议您对所使用的每个课程都使用词袋(弓)。或向量,其中每列是与您要定位的类相关的重要关键字的频率。
关于您拥有 DBPedia 的词典,如 yves 或WordNet。
【讨论】:
【参考方案3】:a.)最简单的解决方案肯定是k-最近邻算法(knn)。事实上,它会使用重叠指标对具有分类内容的新文本进行分类。
你可以在这里找到资源:https://github.com/search?utf8=✓&q=knn+text&type=Repositories&ref=searchresults
【讨论】:
【参考方案4】:a) 您描述的方法听起来不错,但一切都取决于您正在使用的标记 LDA 的实现。我知道的最好的实现之一是Stanford Topic Modeling Toolbox。它不再被积极开发,但当我使用它时它工作得很好。
b) 您可以在 DBPedia 上查找主题内容,它具有主题/实体的结构化本体,以及指向这些主题/实体的***文章的链接。
【讨论】:
以上是关于LDA 用于文本分类的良好训练数据?的主要内容,如果未能解决你的问题,请参考以下文章