Gensim 的潜在狄利克雷分配实现

Posted

技术标签:

【中文标题】Gensim 的潜在狄利克雷分配实现【英文标题】:Latent Dirichlet Allocation Implementation with Gensim 【发布时间】:2020-07-21 23:13:35 【问题描述】:

我正在做有关 LDA 主题建模的项目,我使用了 gensim (python) 来做到这一点。我阅读了一些参考资料,它说要获得最佳模型主题,我们需要确定两个参数,即通过次数和主题数量。真的吗?对于 pass 的数量,我们将看到 pass 在哪一点是稳定的,对于 topic 的数量,我们将看到哪个 topic 的值最低。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None 

gensim库中的所有参数都需要用到吗?

【问题讨论】:

【参考方案1】:

良好的 LDA 模型主要取决于主题的数量。通过次数越多,主题模型就越准确(训练所需的时间也就越长)。

当然不必使用所有参数。大多数时候,您只会传递所需的参数。要找到最佳主题数,您可以获取 c_v 连贯性值并找到给定网格上的最高连贯性。通常,连贯性是比困惑度更好的度量,因为它更符合人类注释者。

【讨论】:

您好,感谢您的回答。但我还需要更多解释,我们可以通过电子邮件讨论吗? 老兄,像其他人一样阅读指南。一个好的开始machinelearningplus.com/nlp/topic-modeling-gensim-python 和一个好的后期markroxor.github.io/gensim/static/notebooks/…。堆栈溢出不是来当你的老师的。我们在这里回答具体问题并帮助解决问题。阅读这些指南,按照说明进行操作,然后返回错误和具体问题

以上是关于Gensim 的潜在狄利克雷分配实现的主要内容,如果未能解决你的问题,请参考以下文章

基于Gensim的文本相似度计算

潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型

在潜在狄利克雷分配后获得重复项

使用 PyMC 实现潜在狄利克雷分配 (LDA)

潜在狄利克雷分配(LDA)

如何实现潜在狄利克雷分配以在主题中给出二元组/三元组而不是一元组