文本主题模型之LDA LDA求解之Gibbs采样算法

Posted 2021-01-24 hx868

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本主题模型之LDA LDA求解之Gibbs采样算法相关的知识，希望对你有一定的参考价值。

　本文是LDA主题模型的第二篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了基于MCMC的Gibbs采样算法，如果你对MCMC和Gibbs采样不熟悉，建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。

1. Gibbs采样算法求解LDA的思路

　　　　首先，回顾LDA的模型图如下：

技术分享图片

　　　　在Gibbs采样算法求解LDA的方法中，我们的 $α, η$

　　　　具体到我们的问题，我们的所有文档联合起来形成的词向量 $\vec{w}$

　　　　如果我们通过采样得到了所有词的主题,那么通过统计所有词的主题计数，就可以得到各个主题的词分布。接着统计各个文档对应词的主题计数，就可以得到各个文档的主题分布。

　　　　以上就是Gibbs采样算法求解LDA的思路。

　　　　从上一节可以发现，要使用Gibbs采样求解LDA，关键是得到条件概率 $p (z_{i} = k | \vec{w}, {\vec{z}}_{\neg i})$

　　　　首先我们简化下Dirichlet分布的表达式,其中 $△ (α)$

D i r i c h l e t (p ? | α ?) = Γ ( \sum k = 1 K α k ) \prod K

　　　　现在我们先计算下第d个文档的主题的条件分布 $p ({\vec{z}}_{d} | α)$

p (z ? d | α ?) = \int p (z ? d |

　　　　其中，在第d个文档中，第k个主题的词的个数表示为： $n_{d}^{(k)}$

n ? d = (n (1) d, n (2) d, . . . n (K) d)

　　　　有了单一一个文档的主题条件分布，则可以得到所有文档的主题条件分布为：

p (z ? | α ?) = \prod d = 1 M p (z ? d | α ?) = \prod

　　　　同样的方法，可以得到，第k个主题对应的词的条件分布 $p (\vec{w} | \vec{z}, \vec{η})$

p (w ? | z ?, η ?) = \prod k = 1 K p (w ? k | z

　　　　其中，第k个主题中，第v个词的个数表示为： $n_{k}^{(v)}$

n ? k = (n (1) k, n (2) k, . . . n (V) k)

　　　　最终我们得到主题和词的联合分布 $p (\vec{w}, \vec{z} | \vec{α}, \vec{η})$

p (w ?, z ?) \propto p (w ?, z ? | α ?, η ?) = p (

　　　　有了联合分布，现在我们就可以求Gibbs采样需要的条件分布 $p (z_{i} = k | \vec{w}, {\vec{z}}_{\neg i})$

　　　　对于下标 $i$

p (z i = k | w ?, z ? ? i) \propto p (z i = k, w i = t |

　　　　对于 $z_{i} = k, w_{i} = t$

α ? \to θ ? d \to z ? d

η ? \to β ? k \to w ? (k)

　　　　其余的 $M + K - 2$

p (θ ? d | w ? ? i, z ? ? i) = D i r i c h l e t (

p (β ? k | w ? ? i, z ? ? i) = D i r i c h l e t (

　　　　现在开始计算Gibbs采样需要的条件概率：

p (z i = k | w ?, z ? ? i)

　　　　在上一篇LDA基础里我们讲到了Dirichlet分布的期望公式，因此我们有：

E D i r i c h l e t (θ d) (θ d k) = n k d , ? i + α k

E D i r i c h l e t (β k) (β k t) = n t k , ? i + η t

　　　　最终我们得到每个词对应主题的Gibbs采样的条件概率公式为：

p (z i = k | w ?, z ? ? i) = n k d , ? i + α k

　　　　有了这个公式，我们就可以用Gibbs采样去采样所有词的主题，当Gibbs采样收敛后，即得到所有词的采样主题。

　　　　利用所有采样得到的词和主题的对应关系，我们就可以得到每个文档词主题的分布 $θ_{d}$

　　　　现在我们总结下LDA Gibbs采样算法流程。首先是训练流程：

　　　　1）选择合适的主题数 $K$

　　　　2）对应语料库中每一篇文档的每一个词，随机的赋予一个主题编号 $z$

　　　　3) 重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的topic编号，并更新语料库中该词的编号。

　　　　4）重复第2步的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛。

　　　　5）统计语料库中的各个文档各个词的主题，得到文档主题分布 $θ_{d}$

　　　　下面我们再来看看当新文档出现时，如何统计该文档的主题。此时我们的模型已定，也就是LDA的各个主题的词分布 $β_{k}$

　　　　现在我们总结下LDA Gibbs采样算法的预测流程：

　　　　1）对应当前文档的每一个词，随机的赋予一个主题编号 $z$

　　　　2) 重新扫描当前文档，对于每一个词，利用Gibbs采样公式更新它的topic编号。

　　　　3）重复第2步的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛。

　　　　4）统计文档中各个词的主题，得到该文档主题分布。

　　　　使用Gibbs采样算法训练LDA模型，我们需要先确定三个超参数 $K, \vec{α}, \vec{η}$

　　　　由于Gibbs采样可以很容易的并行化，因此也可以很方便的使用大数据平台来分布式的训练海量文档的LDA模型。以上就是LDA Gibbs采样算法。

　　　　后面我们会介绍用变分推断EM算法来求解LDA主题模型，这个方法是scikit-learn和spark MLlib都使用的LDA求解方法。

转载自文本主题模型之LDA(二) LDA求解之Gibbs采样算法 - 刘建平Pinard - 博客园 https://www.cnblogs.com/pinard/p/6867828.html

以上是关于文本主题模型之LDA LDA求解之Gibbs采样算法的主要内容，如果未能解决你的问题，请参考以下文章