LDA训练过程（吉布斯采样）

Posted 2020-11-25 lxt-

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了LDA训练过程（吉布斯采样）相关的知识，希望对你有一定的参考价值。

吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度，给定其他维度的变量值当前维度的值，不断收敛来输出待估计的参数。具体地

1.随机给每一篇文档的每一个词 ww，随机分配主题编号 zz
2.统计每个主题 zizi 下出现字 ww 的数量，以及每个文档 nn 中出现主题 zizi 中的词 ww的数量
3.每次排除当前词 ww 的主题分布 zizi，根据其他所有词的主题分类，来估计当前词 ww 分配到各个主题 z1,z2,…,zkz1,z2,…,zk 的概率，即计算 p(zi|z−i,d,w)p(zi|z−i,d,w) (Gibbs updating rule))。得到当前词属于所有主题z1,z2,…,zkz1,z2,…,zk 的概率分布后，重新为词采样一个新的主题 z1z1。用同样的方法不断更新的下一个词的主题，直到每个文档下的主题分布θnθn 和每个主题下的词分布 ?k?k 收敛。
4.最后输出待估计参数，θnθn 和 ?k?k ，每个单词的主题 zn,kzn,k 也可以得到。

LDA 对于每个文档的每一个字都有一个主题下标。但从文档聚类的角度来说，LDA 没有一个文档统一的聚类标签，而是每个字都有一个聚类标签，这个就是主题。LDA 每个字都有可能属于不同的类别，每个文档都有可能属于不同的类别。在大量的迭代后，主题分布和字分布都比较稳定也比较好了，LDA 模型收敛。

以上是关于LDA训练过程（吉布斯采样）的主要内容，如果未能解决你的问题，请参考以下文章

LDA 主题建模 - 训练和测试

吉布斯采样

MCMC笔记：吉布斯采样（Gibbs）

文本主题模型之LDA LDA求解之Gibbs采样算法

从马尔科夫链到吉布斯采样与PageRank

蒙特卡罗马尔科夫与吉布斯采样