使用预先存在的主题进行主题建模
Posted
技术标签:
【中文标题】使用预先存在的主题进行主题建模【英文标题】:Topic modeling using pre-existing topics 【发布时间】:2016-08-13 18:52:17 【问题描述】:我需要在 R 中使用 LDA 对一定数量的文档进行主题建模。
对于每个 M 个主题,我有 n 个出现次数最多的词,我想将此提供给 LDA,并希望获得出现次数最多的主题(M 个主题中)在每个文档中。
总之——
输入 - X 个文档,M 个主题,每个主题有 n 个热门词
输出 - 每个文档的 M 个主题中出现最多的 2 个主题。
有没有办法使用 R 或任何其他语言中已经存在的包来实现这一点。
【问题讨论】:
【参考方案1】:是的,可以通过MALLET 实现这一点。此任务的命令行语法是
bin/mallet classify-file <filename> --classifier FILE --output FILE
分类器 FILE 包含您预先训练的主题。
【讨论】:
分类器文件的内容应该是什么。您能否推荐任何基于分类器的主题建模教程。 @Shubham:试试bin/mallet train-topics --help
,这应该可以让您大致了解 MALLET 可以生成的不同输出文件。以上是关于使用预先存在的主题进行主题建模的主要内容,如果未能解决你的问题,请参考以下文章