文本主题模型之LDA LDA求解之变分推断EM算法

Posted 2021-01-24 hx868

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本主题模型之LDA LDA求解之变分推断EM算法相关的知识，希望对你有一定的参考价值。

　本文是LDA主题模型的第三篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了EM算法，如果你对EM算法不熟悉，建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解，应用于Spark MLlib和Scikit-learn的LDA算法实现，因此值得好好理解。

1. 变分推断EM算法求解LDA的思路

　　　　首先，回顾LDA的模型图如下：

技术分享图片　　

　　　　变分推断EM算法希望通过“变分推断(Variational Inference)”和EM算法来得到LDA模型的文档主题分布和主题词分布。首先来看EM算法在这里的使用，我们的模型里面有隐藏变量 $θ, β, z$

　　　　问题是在EM算法的E步，由于 $θ, β, z$

　　　　当进行若干轮的E步和M步的迭代更新之后，我们可以得到合适的近似隐藏变量分布 $θ, β, z$

　　　　可见要完全理解LDA的变分推断EM算法，需要搞清楚它在E步变分推断的过程和推断完毕后EM算法的过程。

2. LDA的变分推断思路

　　　　要使用EM算法，我们需要求出隐藏变量的条件概率分布如下：

p (θ, β, z | w, α, η) = p ( θ , β , z , w | α , η ) p ( w | α , η )

　　　　前面讲到由于 $θ, β, z$

技术分享图片

　　　　我们假设隐藏变量 $θ$

q (β, z, θ | λ, ?, γ) = \prod k = 1 K q (β k | λ k) \prod

　　　　我们的目标是用 $q (β, z, θ | λ, ϕ, γ)$

(λ ?, ? ?, γ ?) = a r g

　　　　其中 $D (q | | p)$

D (q | | p) = \sum x q (x) l o g q ( x ) p ( x ) = E q ( x ) ( l

　　　　我们的目的就是找到合适的 $λ^{*}, ϕ^{*}, γ^{*}$

　　　　这个合适的 $λ^{*}, ϕ^{*}, γ^{*}$

l o g (w | α, η) = l o g \int \int \sum z p (θ, β, z, w |

　　　　其中，从第(5)式到第(6)式用到了Jensen不等式：

f (E (x)) \geq E (f (x))

　　　　我们一般把第(7)式记为：

L (λ, ?, γ; α, η) = E q

　　　　由于 $L (λ, ϕ, γ; α, η)$

D (q (β, z, θ | λ, ?, γ) | | p (θ, β, z | w, α, η))

　　　　在(10)式中，由于对数似然部分和我们的KL散度无关，可以看做常量，因此我们希望最小化KL散度等价于最大化ELBO。那么我们的变分推断最终等价的转化为要求ELBO的最大值。现在我们开始关注于极大化ELBO并求出极值对应的变分参数 $λ, ϕ, γ$

3. 极大化ELBO求解变分参数

　　　　为了极大化ELBO，我们首先对ELBO函数做一个整理如下：

L (λ, ?, γ; α, η) = E q [l o g p (β | η)] + E q [l o g

　　　　可见展开后有7项，现在我们需要对这7项分别做一个展开。为了简化篇幅，这里只对第一项的展开做详细介绍。在介绍第一项的展开前，我们需要了解指数分布族的性质。指数分布族是指下面这样的概率分布：

p (x | θ) = h (x) e x p (η (θ) ? T (x) ? A (θ))

　　　　其中， $A (x)$

d d η ( θ ) A ( θ ) = E p ( x | θ ) [ T ( x ) ]

　　　　这个证明并不复杂，这里不累述。我们的常见分布比如Gamma分布，Beta分布，Dirichlet分布都是指数分布族。有了这个性质，意味着我们在ELBO里面一大推的期望表达式可以转化为求导来完成，这个技巧大大简化了计算量。

　　　　回到我们ELBO第一项的展开如下：

E q [l o g p (β | η)] = E q [l o g \prod k = 1 K (Γ (

　　　　第(15)式的第三项的期望部分，可以用上面讲到的指数分布族的性质，转化为一个求导过程。即：

E q [\sum i = 1 V l o g β k i] = (l o g Γ (λ k i) ? l o g Γ (\sum

　　　　其中：

Ψ (x) = d d x l o g Γ ( x ) = Γ ' ( x ) Γ ( x )

　　　　最终，我们得到EBLO第一项的展开式为：

E q [l o g p (β | η)] = K l o g Γ (\sum i = 1 V η i) ? K \sum

　　　　类似的方法求解其他6项，可以得到ELBO的最终关于变分参数 $λ, ϕ, γ$

E q [l o g p (z | θ)] = \sum n = 1 N \sum k = 1 K ? n k Ψ (γ

E q [l o g p (θ | α)] = l o g Γ (\sum k = 1 K α k) ? \sum k =

E q [l o g p (w | z, β)] = \sum n = 1 N \sum k = 1 K \sum i =

E q [l o g q (β | λ)] = \sum k = 1 K (l o g Γ (\sum i = 1 V λ k

E q [l o g q (z | ?)] = \sum n = 1 N \sum k = 1 K ? n k l o

E q [l o g q (θ | γ)] = l o g Γ (\sum k = 1 K γ k) ? \sum k =

　　　　有了ELBO的具体的关于变分参数 $λ, ϕ, γ$

4. EM算法之E步：获取最优变分参数

　　　　有了前面变分推断得到的ELBO函数为基础，我们就可以进行EM算法了。但是和EM算法不同的是这里的E步需要在包含期望的EBLO计算最佳的变分参数。如何求解最佳的变分参数呢？通过对ELBO函数对各个变分参数 $λ, ϕ, γ$

　　　　这里就不详细推导了，直接给出各个变分参数的表达式如下：

? n k \propto e x p (\sum i = 1 V w i n (Ψ (λ k i) ? Ψ (\sum

　　　　其中， $w_{n}^{i} = 1$

γ k = α k + \sum n = 1 N ? n k (24)

λ k i = η i + \sum n = 1 N ? n k w i n (25)

　　　　由于变分参数 $λ$

λ k i = η i + \sum d = 1 M \sum n = 1 N d ? d n k w i

　　　　最终我们的E步就是用（23）（24）（26）式来更新三个变分参数。当我们得到三个变分参数后，不断循环迭代更新，直到这三个变分参数收敛。当变分参数收敛后，下一步就是M步，固定变分参数，更新模型参数 $α, η$

5. EM算法之M步：更新模型参数

　　　　由于我们在E步，已经得到了当前最佳变分参数，现在我们在M步就来固定变分参数，极大化ELBO得到最优的模型参数 $α, η$

　　　　对于 $α$

? α k L = M (Ψ (\sum k' = 1 K α k') ? Ψ (α k

? α k α j L = M (Ψ' (\sum k' = 1 K α k'

　　　　其中，当且仅当 $k = j$

　　　　对于 $η$

? η i L = K (Ψ (\sum i' = 1 V η i') ? Ψ (η i

? η i η j L = K (Ψ' (\sum i' = 1 V η i'

　　　　其中，当且仅当 $i = j$

　　　　最终牛顿法法迭代公式为：

α k + 1 = α k + ? α k L ? α k α j L (27)

η i + 1 = η i + ? η i L ? η i η j L (28)

6. LDA变分推断EM算法流程总结

　　　　下面总结下LDA变分推断EM的算法的概要流程。

　　　　输入：主题数 $K$

　　　　1）初始化 $α, η$

　　　　2）开始EM算法迭代循环直到收敛。

　　　　　　a) 初始化所有的 $ϕ, γ, λ$

　　　　　　　　(i) for d from 1 to M:

　　　　　　　　　　　for n from 1 to $N_{d}$

　　　　　　　　　　　　　for k from 1 to K:

　　　　　　　　　　　　　　　　按照(23)式更新 $ϕ_{n k}$

　　　　　　　　　　　标准化 $ϕ_{n k}$

　　　　　　　　　　按照(24) 式更新 $γ_{k}$

　　　　　　　　(ii) for k from 1 to K:

　　　　　　　　　　　　for i from 1 to V:

　　　　　　　　　　按照(26) 式更新 $λ k i$

　　　　　　　　(iii)如果 $ϕ, γ, λ$

　　　　　　b) 进行LDA的M步迭代循环，直到 $α, η$

　　　　　　　　(i) 按照(27)(28)式用牛顿法迭代更新 $α, η$

　　　　　　c) 如果所有的参数均收敛，则算法结束，否则回到第2)步。

　　　　　　算法结束后，我们可以得到模型的后验参数 $α, η$

$α, η$

以上是关于文本主题模型之LDA LDA求解之变分推断EM算法的主要内容，如果未能解决你的问题，请参考以下文章

Gaussian LDA: LDA回想以及变分EM

文本主题模型之LDA LDA求解之Gibbs采样算法

Gaussian LDA: LDA回顾以及变分EM

Spark：聚类算法之LDA主题模型算法

LdA笔记