LDA训练过程(吉布斯采样)

Posted lxt-

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LDA训练过程(吉布斯采样)相关的知识,希望对你有一定的参考价值。


吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度,给定其他维度的变量值当前维度的值,不断收敛来输出待估计的参数。具体地

1.随机给每一篇文档的每一个词 ww,随机分配主题编号 zz
2.统计每个主题 zizi 下出现字 ww 的数量,以及每个文档 nn 中出现主题 zizi 中的词 ww的数量
3.每次排除当前词 ww 的主题分布 zizi,根据其他所有词的主题分类,来估计当前词 ww 分配到各个主题 z1,z2,…,zkz1,z2,…,zk 的概率,即计算 p(zi|z−i,d,w)p(zi|z−i,d,w) (Gibbs updating rule))。得到当前词属于所有主题z1,z2,…,zkz1,z2,…,zk 的概率分布后,重新为词采样一个新的主题 z1z1。用同样的方法不断更新的下一个词的主题,直到每个文档下的主题分布θnθn 和每个主题下的词分布 ?k?k 收敛。
4.最后输出待估计参数,θnθn 和 ?k?k ,每个单词的主题 zn,kzn,k 也可以得到。


LDA 对于每个文档的每一个字都有一个主题下标。但从文档聚类的角度来说,LDA 没有一个文档统一的聚类标签,而是每个字都有一个聚类标签,这个就是主题。LDA 每个字都有可能属于不同的类别,每个文档都有可能属于不同的类别。在大量的迭代后,主题分布和字分布都比较稳定也比较好了,LDA 模型收敛。

以上是关于LDA训练过程(吉布斯采样)的主要内容,如果未能解决你的问题,请参考以下文章

LDA 主题建模 - 训练和测试

吉布斯采样

MCMC笔记:吉布斯采样(Gibbs)

文本主题模型之LDA LDA求解之Gibbs采样算法

从马尔科夫链到吉布斯采样与PageRank

蒙特卡罗马尔科夫与吉布斯采样