使用预先存在的主题进行主题建模

Posted

技术标签:

【中文标题】使用预先存在的主题进行主题建模【英文标题】:Topic modeling using pre-existing topics 【发布时间】:2016-08-13 18:52:17 【问题描述】:

我需要在 R 中使用 LDA 对一定数量的文档进行主题建模。

对于每个 M 个主题,我有 n 个出现次数最多的词,我想将此提供给 LDA,并希望获得出现次数最多的主题(M 个主题中)在每个文档中。

总之——

输入 - X 个文档,M 个主题,每个主题有 n 个热门词

输出 - 每个文档的 M 个主题中出现最多的 2 个主题。

有没有办法使用 R 或任何其他语言中已经存在的包来实现这一点。

【问题讨论】:

【参考方案1】:

是的,可以通过MALLET 实现这一点。此任务的命令行语法是

bin/mallet classify-file <filename> --classifier FILE --output FILE

分类器 FILE 包含您预先训练的主题。

【讨论】:

分类器文件的内容应该是什么。您能否推荐任何基于分类器的主题建模教程。 @Shubham:试试bin/mallet train-topics --help,这应该可以让您大致了解 MALLET 可以生成的不同输出文件。

以上是关于使用预先存在的主题进行主题建模的主要内容,如果未能解决你的问题,请参考以下文章

R语言对NASA元数据进行文本挖掘的主题建模分析

火炉炼AI机器学习042-NLP文本的主题建模

理解和应用 k-means 聚类进行主题建模

文本挖掘| 什么时候可以用到主题建模?

利用R语言进行LDA主题建模

如何从主题建模中制作主题百分比条形图?