LDA详解

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LDA详解相关的知识,希望对你有一定的参考价值。

技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享技术分享

PART 1

这个性质被叫做共轭性。共轭先验使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极?的简化。

?

技术分享

V:文档集中不重复的词汇的数目

语料库共有m篇文档,技术分享

对于文档技术分享,由技术分享个词汇组成,可重复;

技术分享是第m个文档中的第n个词。

技术分享:文档集中文档的总数

技术分享:第m个文档中包含的词汇总数

技术分享:文档m中第n个词在词典中的序号,属于1到V

技术分享:文档m第n个词汇的主题标号,属于1到k

技术分享:第k个主题的词汇分布中的参数向量

技术分享:第m文档的主题分布中的参数向量

(1) 技术分享是每个文档下主题的多项式分布的Dirichlet先验参数,技术分享是每个主题下词的多项式分布的Dirichlet先验参数。

技术分享一般事先给定,如果取0,1对称的Dirichlet分布,表示在参数学习接收后,期望每篇文档的主题不会十分集中。

(2)技术分享表示第m个文档下的主题分布的分布;技术分享表示第k个主题下的词分布。

对于第i篇文档技术分享的主题分布是技术分享,是长度为K的向量;

对于第i篇文档的技术分享,在主题分布技术分享下,可以确定一个具体的主题技术分享????对于第K个主题技术分享的词分布技术分享,是长度为v的向量;

技术分享选择技术分享,表示由词分布技术分享确定词,即得到观测值技术分享

(3)技术分享是第m个文档的单词总数。技术分享是第m个文档中第n个词的主题

第m篇文档的生成概率:

技术分享

整理后整个文档集的生成概率:

技术分享

式中技术分享是Dirichlet技术分享分布的delta函数。即:

技术分享

注解:

1)技术分享表示是第 m 篇文档的词汇序列技术分享

2)技术分享是第 m 篇文档中词汇序列对应的主题序列技术分享

3)技术分享是生成此文档的生成概率

4) 技术分享由第 m 篇文章的文档-主题分布技术分享产生第 n 个词汇对应主题的概率;

5)技术分享表示由技术分享产生第 m 篇文档所有词汇的概率

PART 2

Gibbs迭代规则的思想:即不考虑当前词汇的主题分配,据此词汇所在文档的主题分布以及各个主题下词汇分布来计算此词汇被分配到各个主题的概率分布,然后选择以最大概率被分配的主题。

?

Gibbs迭代规则公式:

技术分享

(1)技术分享表示排除当前第i个词汇,根据文档集中其他词汇序列的主题分布来计算第i个词汇属于第k个主题的概率

3)t 是第i个词汇对应词汇的字典序列号,技术分享表示排除当前词汇,k个主题中词汇 t 出现次数。

4)m 是当前词汇出现在第 m 篇文档中,技术分享表示排除当前词汇,m 篇文档中出现词汇k的次数。

当 Gibbs 采样收敛后,跟据每个文档中主题分配次数以及每个主题中词汇分配次数来计算"文档-主题"分布和和"主题-词汇"分布。

技术分享

技术分享

1)技术分享表示标号为v的词语分配到主题 k 的次数,技术分享 表示文档m 中所有词语分配到主题 z 的个数。

2)技术分享是主题在词汇上分布,式(2-10)中分子的意义是字典中第 t 个词汇分配到主题k下的次数,分母是表示的意义字典中所有词汇被分配到主题k下的次数,技术分享是主题-词汇分布中的先验参数,表示人为认为词汇 t 被分配到主题 k 的次数。所有词汇初始时都是等可能的被分配,以这里都假定技术分享=1。

3)技术分享 是文档-主题分布,式(2-11)中分子的意义是主题 k 被分配到第 m 篇文档中的次数,分母是表示的意义各个主题被分配到第 m 篇文档中的次数总和,文档m 的长度。技术分享是文档-主题分布中的先验参数,表示主题 k 被分配的次数。所有主题初始时都是等可能的被分配,以这里都假定技术分享=1

?

PART 3

LDA主题模型生成文档语料库的过程如下:(建设生成的语料库包含m篇文档、K个主题)

(1)对于m篇文档,生成"文档-主题"分布。文档主题分布也是一个多项式分布,它的参数服从参数为技术分享的Dirichlet先验分布。

(2)获取每个主题下的"主题-词汇"的分布。主题-词汇分布是一个多项式分布,且它的参数变量服从参数为技术分享的Dirichlet先验分布。技术分享

(3)根据 "文档-主题"、"主题-词汇"分布,依次生成所有文档中的词汇。具体做法,首先根据该文档的"文档-主题"分布规律采样一个主题,然后从这个主题对应的"主题-词汇"分布规律中采样生成一个词汇,不断重复步骤3的生成过程,直到m篇文档词汇全部生成。

以上是关于LDA详解的主要内容,如果未能解决你的问题,请参考以下文章

LDA详解

[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

主成分分析(PCA)

线性判别分析LDA的核心思想LDA的数学形式LDA的优缺点

文本主题模型之LDA LDA基础

LDA动手实现LDA