LDA 主题模型效果度量

Posted 2023-03-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了LDA 主题模型效果度量相关的知识，希望对你有一定的参考价值。

参考技术A 度量方法：

这里主要说说如何计算困惑度。

计算方法为：

难点在于计算每篇文档的概率参考1 参考2 , 在Blei原始论文中并没有详说。

一种方法是计算一篇文档所有词的概率和，即似然性，然后取log,这也是gensim和sklearn的做法。

一个词的概率：
p(w) = sigma p(z,w) = sigma p(z)p(w|z)

一篇文档概率
p(d) = log (p(w1)p(w2)...) = sigma log(p(w))

详细公式推导见参考3

具体实现可参考类 gensim.models.ldamodel.LdaModel的成员方法 log_perplexity()，结果只输出到日志中，但是调用成员方法bound()可以自己计算得到，该函数返回的是语料似然值,假设为L，则语料困惑度为exp(-L)

也可以参考类 sklearn.decomposition.LatentDirichletAllocation 的成员方法perplexity()，该函数直接返回困惑度。

在实践中，困惑度主要用来观察模型收敛情况，可以在训练集上进行，也可以在held-out数据集上。

其他参考

以上是关于LDA 主题模型效果度量的主要内容，如果未能解决你的问题，请参考以下文章