Latent Dirichlet Allocation（隐狄利克雷分配模型）——论文翻译与分析

Posted 2023-03-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Latent Dirichlet Allocation（隐狄利克雷分配模型）——论文翻译与分析相关的知识，希望对你有一定的参考价值。

参考技术A

我们描述潜在的狄利克雷分配（LDA），它是一种用于离散数据集合（如文本语料库）的生成概率模型。 LDA是一个三层次的贝叶斯模型，其中一个集合中的每个项目都被建模为一组潜在的话题（主体）类型的有限混合。反过来，每个主题都被建模为一组潜在主题概率的无限混合。在文本建模的背景下，主题概率提供了文档的明确表示。我们提出了基于变分方法和经验贝叶斯参数估计的EM算法的高效近似推理技术。我们会报告LDA在文档建模，文本分类和协作过滤上的实验结果，并与一元混合模型（ unigrams model）和概率LSI模型相比较。

在本文中，我们考虑建模文本语料库和其他离散数据集合的问题。我们的目标是找到对一个集合的成员的简短描述，它不仅可以高效处理大型集合，同时保留对分类，异常检测，摘要（概括）以及相似性和相关性判断等基本任务有用的必要统计关系。

信息检索（IR）领域的研究人员已经在这个问题上取得了重大进展（Baeza-Yates和Ribeiro-Neto，1999）。IR研究人员为文本语料库提出的基本方法（一种在现代互联网搜索引擎中成功部署的方法）将语料库中的每个文档变为实数表示的向量，每个实数都表示（词汇的）计数比率。流行的tf-idf方案（Salton和McGill，1983），对于文集中的每个文档选择了“词”或“术语”作为基本单位，并且计数由每个词的出现次数。在适当的归一化之后，将该术语频率计数与逆向文档频率计数进行比较，该逆向文档频率计数度量整个语料库中的词的出现次数（通常以对数刻度，并且再次适当标准化）。最终结果是文档术语矩阵X，其列包含文档集中每个文档的tf-idf值。因此，tf-idf方案将任意长度的文档缩减为固定长度的数字列表。

尽管tf-idf规约具有一些吸引人的特征 - 特别是（在对集合中的文档进行区分的）单词集合的基本识别中，但是在（对文档的）描述长度上，该方法并没有减少多少，并且揭示出很少的文档内或文档间的统计结构。为了解决这些缺点，IR研究人员提出了其他几种降维技术，其中最著名的是潜在语义索引（LSI）（Deerwester等，1990）。LSI使用X矩阵的奇异值分解来标识tf-idf特征空间中的线性子空间，该子空间捕获集合中的大部分变异数（variance）。这种方法可以在大型集合中实现显着压缩。此外，Deerwester等人认为LSI的衍生特征（即原始tf-idf特征的线性组合），可以捕捉基本语言学概念的某些方面，比如同义词和多义词等。

为了证实关于LSI的主张，并研究其相对的优缺点，开发文本语料库的生成概率模型和研究LSI从数据中恢复生成模型方面的能力是有用的（Papadimitriou et al。，1998）。然而，目前尚不清楚，考虑文本的生成模型的时候，为什么应该采用LSI方法 - （其实）可以尝试更直接地进行，（比如）使用最大似然法或贝叶斯方法将模型与数据相匹配（即得到数据的模型）。

Hofmann（1999）在这方面迈出了重要的一步，他将LSI的概率LSI（pLSI）模型（也称为特征模型aspect model）作为LSI的替代品。我们在第4.3节中详细描述的pLSI方法将文档中的每个单词作为混合模型中的样本进行建模，其中混合组件是多项随机变量，可以将其视为“主题topics”的表示。因此，每个单词都是从单个主题生成的，而文档中的不同单词可以从不同的主题生成。每个文档都被表示为这些混合组件的混合比例列表，从而将其简化为一组固定主题的概率分布。这种分布是与文档相关的“简化描述”。

虽然霍夫曼的工作是向文本概率建模迈出的有用的一步，但它并不完整，因为它没有提供文档层面的概率模型。在pLSI中，每个文档都被表示为一个数字列表（数字的值是主题的混合比例），并且这些数字没有生成概率模型。这导致了几个问题：（1）模型中参数的数量与语料库的大小成线性增长，这导致过度拟合的严重问题;（2）不清楚如何将概率分配给训练集之外的文档。

要了解如何超越pLSI，让我们考虑包括LSI和pLSI在内的一类降维方法的基本概率假设。所有这些方法都基于“词袋”的假设 - 文档中的单词顺序可以忽略不计。此外，尽管不经常正式说明，但这些方法也假定文档是可相互交换的; 文集中文档的具体排序也可以忽略不计。

受益于Finetti（1990），一个经典表示理论认为：任何可交换随机变量的集合都具有混合分布（通常是无限混合）的表示。因此，如果我们想考虑文件和单词的可交换表示，我们需要考虑能捕获单词和文档的可交换性的混合模型。这一思路促使我们在当前论文中提出潜在狄利克雷分配（LDA）模型。

需要强调的是，可交换性的假设并不等同于随机变量独立同分布的假设。相反，可交换性本质上可以被解释为“条件独立且分布相同”，其中的条件是与概率分布的潜在隐参数有关的。在一定条件下，随机变量的联合分布是简单的，但如果围绕隐参数考虑，联合分布可能相当复杂。因此，虽然可交换性的假设是文本建模领域的一个主要的简化假设，并且其主要理由是它是一种会导致计算效率较高的方法，但可交换性假设对简单频率的计数或线性操作并不是一个必要的条件。在当前的论文中，我们的目标是，通过认真考虑de Finetti定理，可以通过混合分布获取重要的文档内统计结构。

同样值得注意的是，可交换性的基本概念有大量的总结概括，包括各种形式的部分可交换性，并且上面提到的表示法也可用于部分可交换的情况（Diaconis，1988）。因此，虽然我们在当前论文中讨论的工作集中在简单的“词袋”模型上（这表现为单个单词（unigrams）的混合分布），但我们的方法也适用于涉及较大结构混合的更丰富的模型，如n-grams或段落。

本文的结构如下：在第2节中，我们介绍基本的表示法和术语。 LDA模型在第3节中介绍，并与第4节中的相关潜变量模型进行比较。我们在第5节讨论LDA的推理和参数估计。第6节提供了LDA拟合数据的一个说明性例子。文本建模，文本分类和协作过滤的实验结果在第7节中给出。最后，第8节给出我们的结论。

我们在整篇论文中使用 文本集合 的说法，指的是诸如“单词”，“文档”和“语料库”等实体。这很有用，因为它有助于指导靠直觉来感知的知识的处理（intuition），特别是当我们引入旨在捕捉抽象概念（如主题）的潜在变量时（潜在变量和隐变量说的是一回事）。然而，需要指出的是，LDA模型不一定与文本相关，并且可应用于涉及数据集合的其他问题，包括来自诸如协同过滤，基于内容的图像检索和生物信息学等领域的数据。事实上，在7.3节中，我们将呈现在协同过滤领域的实验结果。

在形式上，我们定义下列术语：
• 单词是离散数据的基本单位，假设有一个V个词组成的词汇表（词典），索引通过1......V表示，里面每一项代表一个单词。我们使用单位向量表示单词，它里面一项等于1其他项等于零。我们使用上标来表示第几个成分，因此第v个词在V维向量w中表示为：w v = 1 and w u = 0 for u ≠ v
• 文档中的词来自一个包含N个词的词典，一个文档可以表示成N个词组成的序列，可以表示为 w = (w 1 ,w 2 ......w N )，下标表示第几个词。（注意，每个词用一个V维的向量表示，每篇文档有最多有N个不同的词，不要搞混了）
• 一个语料库是含有M个文档的集合，用 D = ( w 1 , w 2 ...... w M )----注意有加粗

我们希望找到一个语料库的概率模型，它不仅为语料库成员分配高概率，而且为其他“类似”文档分配高概率。（意思就是说，语料库中某一文档的某个topic概率比较高，那么测试相似文档。也能得到相同的概率分布）

隐在狄利克雷分配（LDA）是语料库的生成概率模型。其基本思想是文档被表示为潜在主题的随机混合，每个主题都是有不同的文字（词）分布特征的。

LDA为语料库 D 中的每个文档 w 假定以下生成过程：

在这个基本模型中做了几个简化的假设，其中一些我们在后面的章节中会删除。首先，Dirichlet分布的维度k（以及主题变量z的维度）被假定为已知并且是固定的。其次，单词概率通过k×V矩阵 β 进行参数化，其中 β ij = p（w j = 1 | z i = 1）（猜测：它表示在某个主题中索引为i的词出现的条件下，文档中第j个词出现的概率），现在我们将其视为待估计的固定量。最后，泊松假设对随后的任何事情都不是关键的，并且可以根据需要使用更真实的文档长度分布。此外，请注意，N与所有其他数据生成变量（θ和z）无关。因此它是一个辅助变量，我们通常会忽略它在随后发展中的随机性。

一个k维Dirichlet随机变量θ可以从(k − 1)-simplex（单形或单纯形）中取值，并且在这个单纯形中有以下概率密度：

α 参数是一个k维向量，并且 α 的每一项都满足α i > 0，另外Γ(x)是伽马函数。狄利克雷分布在单形（属于指数族）上是一种实用的分布，具有有限维数的充分统计量，并且与多项分布共轭。

在第5节中，这些属性将有助于开发LDA的推理和参数估计算法。

给定参数α和β，主题混合分布θ、主题 z 和文档 w 的联合分布为：

上式表示给定参数α和β的条件下，文档的概率分布。

最后，利用单个文档边际概率的乘积，得到一个语料库的概率分布：

区分LDA和简单的Dirichlet多项式聚类模型很重要。经典的聚类模型会涉及到一个两层模型：其中，一个Dirichlet为一个语料库抽样一次，一个多项式聚类变量为语料库中的每个文档选择一次，并且以聚类变量为条件，为文档选择一组词语。与许多聚类模型一样，这种模型将文档限制为与单个主题相关联。另一方面，LDA涉及三个层次，特别是主题节点在文档中被重复采样。在这种模式下，文档可以与多个主题相关联。

图1所示类似结构通常在贝叶斯统计建模中研究，它们被称为分层模型（Gelman等，1995），或者更准确地说，是条件独立的分层模型（Kass和Steffey，1989）。这种模型通常也被称为参数经验贝叶斯模型（parametric empirical Bayes models），这个术语不仅指特定的模型结构，而且还指用于估计模型参数的方法（Morris，1983）。事实上，正如我们在第5节中讨论的那样，我们采用经验贝叶斯方法来估计一个LDA简单实现中的参数（比如，α和β等），但我们也考虑了更充分的贝叶斯方法。

如果联合分布对于置换是不变的，那么一个有限的随机变量集z 1 ......z N 被认为是可交换的。如果π（此π非彼π）表示某种整数从1到N的置换规则，则：

p(z 1 ......z N ) = p(z π(1) ......z π(N) )

如果每个有限的子序列是可交换的，则无限序列的随机变量是无限可交换的。

De Finetti的表示定理指出，随机变量的无限可交换序列的联合分布就好像从一些分布中抽取的一个随机参数，以该参数为条件，所讨论的随机变量是独立同分布的。

在LDA中，我们假设单词是由主题（通过固定的条件分布）生成的，而且这些主题在文档中是无限可交换的。根据菲内蒂定理，一组词汇和话题的概率必须具有以下这种形式：

θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布，在公式（3）中，我们获得了文档的LDA分布。

图1所示的LDA模型比传统分层贝叶斯文献中经常研究的两层模型要复杂得多。然而，通过边缘化隐藏的主题变量z，我们可以将LDA理解为两层模型。

特别是，让我们来构造单词分布p(w|θ,β)：

请注意，这是一个随机量，因为它取决于θ。

我们现在为文档 w 定义下面的生成过程：（对每篇文档）

该过程将文档的边际分布定义为连续混合分布：（注意下式表示的是语料库，而非一篇文档的分布）

图2说明了LDA的这种解释。它描绘了LDA模型的一个特定实例引发的p(w| θ,β)的分布。请注意，在（V-1） - simplex中的这种分布仅通过k + kV个参数实现，但展现出非常有趣的多模式结构。

在本节中，我们将LDA与文本的简单潜（隐）变量模型（一元模型，一元模型的混合模型和pLSI模型）进行比较。此外，我们提出了这些模型的统一几何解释，突出了它们的主要区别和相似之处。

在一元模型下，每个文档的单词都是独立的按照某个多项分布而绘制的，生成文档的概率为：

如果我们用一个离散的随机主题变量z（图3b）来扩充一元模型，我们就可以得到一个混合一元模型（Nigam et al.，2000）。在这个混合模型下，首先选择一个主题z，然后从条件多项式p（w | z）独立的生成N个单词，从而生成每个文档（该文档中的所有词都来自一个主题）。一篇文档的概率分布：

在每个文档仅显示一个主题的假设背景下，当从语料库做概率估计时，可以将词语分布视为主题的表示。正如第7节的实证结果所示，这种假设通常限制性太强，以至于无法有效地建模量大的文献。

相反，LDA模型允许文档在不同程度上展示多个主题。这是以（增加）一个额外参数为代价实现的：在混合一元模型中有与p(z)相关的参数有k-1个，而在LDA中与p（θ | α）有关的参数有k个。

概率潜在语义索引（pLSI）是另一个广泛使用的文档模型（Hofmann，1999）。如图3c所示，给定了未知的主题z，pLSI模型假设文档标签d和单词w n 是条件独立的：

使用pLSI的另一个困难（也是来自于通过训练文档进行索引的分布的使用）是必须估计的参数数量与训练文档的数量呈线性增长。k-主题pLSI模型的参数是在k个未知主题上，V和M混合大小的k个多项式分布。这给出了kV + kM个参数，因此在M中线性增长。参数的线性增长表明该模型容易出现过度拟合，并且根据经验确定，过拟合确实是一个严重的问题（参见第7.1节）。在实践中，使用回火试探来平滑模型的参数以获得可接受的预测性能。然而，已经表明，即使在使用回火时也可能发生过度拟合（Popescul et al.，2001）。

LDA通过将主题混合权重视为一个k个参数的隐藏的随机变量，而不是大量与训练集明确关联的单个参数，来克服这两个问题。如第3节所述，LDA是一个良好定义的生成模型，可轻松推广到新文档。此外，k-topic LDA模型中的k + kV个参数不会随着训练语料库的大小而增长。我们将在7.1节看到，LDA不会遇到与pLSI相同的过度拟合问题。

说明LDA和其他潜在主题模型之间差异的一种好方法是考虑潜在空间的几何形状，并了解每个模型下文档在该几何体中的表示方式。

上述所有四种模型（unigram, mixture of unigrams, pLSI, and LDA）都是在单词分布空间中进行操作的。每个这样的分布可以被看作是（V-1） - simplex上的一个点，我们称之为词单纯形（the word simplex）。

一元模型在词单纯形上找到一个单一的点，并假定文集中的所有单词来自相应的分布。潜变量模型考虑词单纯形上的k个点，并根据这些点构成子单形体，我们称之为主题单纯形。请注意，主题单纯形上的任何一点也是单词单纯形上的一个点。不同的潜在变量模型以不同的方式使用主题单纯形来生成文档。

• 混合一元模型假设，对于每个文档，词单纯形中的k个点（即，主题单纯形的那些角中的一个）中的一个一旦随机选择后，文档的所有单词都从对应于那一点的分布中获取。

• pLSI模型假定训练文档的每个单词来自随机选择的主题。这些主题本身来自于文档在主题上的特征分布，也就是主题单纯形上的一个角点。每个文件有一个这样的分布，训练文档集因此定义了关于主题单纯形的经验分布。

• LDA假定观察到的（训练集）和未看到的（验证集）文档中的每个词都是由随机选择的主题生成的，该主题是从具有一个随机选择参数的分布中抽取的。从主题单纯形的平滑分布中，每个文档对此参数进行一次采样。

这些差异在图4中突出显示。

我们描述了使用LDA背后的动机，并说明了其与其他潜在主题模型相比的概念优势。在本节中，我们将注意力转向LDA下的推理和参数估计。

为了使用LDA我们需要解决的关键推理问题是计算给定文档的隐藏变量的后验分布：

不幸的是，这种分布通常难以计算。实际上，为了规范化分布，我们将忽视隐藏变量并根据模型参数重写方程（3）：

这是一个由于在潜在主题的总和中θ和β之间的耦合，而难以处理的函数（Dickey，1983）。Dickey表示这个函数是在Dirichlet分布的特定扩展下的期望，可以用特殊的超几何函数表示。它在贝叶斯环境中可用于删除（或审查，censored 暂时不明白怎么翻译）离散数据，以表示θ的后验（在该设置中，θ是随机参数）（Dickey等，1987）。

尽管后验分布对于精确推断是难以处理的，但是对于LDA可以考虑各种各样的近似推理算法，包括拉普拉斯近似，变分近似和马尔可夫链蒙特卡罗（Jordan，1999）。在本节中，我们描述了一个简单的基于凸性的变分算法，用于推断LDA，并讨论了第8节中的一些替代方案。

基于凸性的变分推理的基本思想是利用Jensen不等式来获得对数似然的可调下界（Jordan et al。，1999）。本质上，人们考虑一系列下界，它们由一组变分参数索引。变分参数由优化程序选择，该程序试图找到最可能的下限。

获得易处理的下界族的简单方法是考虑原始图形模型的简单修改，原始图形模型中一些边和节点已被移除。特别考虑图5（左）中所示的LDA模型。 θ和β之间的有问题的耦合是由于θ，z和w之间的边界而产生的。通过丢弃这些边和w节点，并赋予所得到的简化图形模型以及自由变分参数，我们获得了潜在变量的一个分布族。这个分布族以下面这个变分分布为特征：

已经指定了简化的概率分布族，下一步是建立一个确定变分参数γ和Φ的值的优化问题。正如我们在附录A中所示，找到对数似然的紧密下界的期望直接转化为以下优化问题：

因此，通过最小化变分分布和真实后验p（θ, z | w,α,β）之间的KullbackLeibler（KL）发散来找到变分参数的优化值。这种最小化可以通过迭代定点方法实现。特别是，我们在附录A.3中表明，通过计算KL散度的导数并将它们设置为零，我们得到以下一对更新方程：

最近有新的项目做，没时间翻译啦，以后有时间再填坑，此处省略3000字......

以上是关于Latent Dirichlet Allocation（隐狄利克雷分配模型）——论文翻译与分析的主要内容，如果未能解决你的问题，请参考以下文章

潜在狄利克雷分配(LDA，Latent Dirichlet Allocation)模型

Latent Dirichlet Allocation 文本分类主题模型

简单易学的机器学习算法——Latent Dirichlet Allocation（理论篇）

无监督第四节：LDA (Latent Dirichlet Allocation快速理解)（主题模型）