Gensim 的潜在狄利克雷分配实现
Posted
技术标签:
【中文标题】Gensim 的潜在狄利克雷分配实现【英文标题】:Latent Dirichlet Allocation Implementation with Gensim 【发布时间】:2020-07-21 23:13:35 【问题描述】:我正在做有关 LDA 主题建模的项目,我使用了 gensim (python) 来做到这一点。我阅读了一些参考资料,它说要获得最佳模型主题,我们需要确定两个参数,即通过次数和主题数量。真的吗?对于 pass 的数量,我们将看到 pass 在哪一点是稳定的,对于 topic 的数量,我们将看到哪个 topic 的值最低。
num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None
gensim库中的所有参数都需要用到吗?
【问题讨论】:
【参考方案1】:良好的 LDA 模型主要取决于主题的数量。通过次数越多,主题模型就越准确(训练所需的时间也就越长)。
当然不必使用所有参数。大多数时候,您只会传递所需的参数。要找到最佳主题数,您可以获取 c_v 连贯性值并找到给定网格上的最高连贯性。通常,连贯性是比困惑度更好的度量,因为它更符合人类注释者。
【讨论】:
您好,感谢您的回答。但我还需要更多解释,我们可以通过电子邮件讨论吗? 老兄,像其他人一样阅读指南。一个好的开始machinelearningplus.com/nlp/topic-modeling-gensim-python 和一个好的后期markroxor.github.io/gensim/static/notebooks/…。堆栈溢出不是来当你的老师的。我们在这里回答具体问题并帮助解决问题。阅读这些指南,按照说明进行操作,然后返回错误和具体问题以上是关于Gensim 的潜在狄利克雷分配实现的主要内容,如果未能解决你的问题,请参考以下文章