潜在狄利克雷分配与文档聚类的关系
Posted
技术标签:
【中文标题】潜在狄利克雷分配与文档聚类的关系【英文标题】:The relationship between latent Dirichlet allocation and documents clustering 【发布时间】:2011-09-30 12:32:04 【问题描述】:我想澄清潜在 Dirichlet 分配 (LDA) 与文档聚类的一般任务之间的关系。
LDA 分析倾向于输出每个文档的主题比例。如果我的理解是正确的,这不是文档聚类的直接结果。但是,我们可以将此概率比例视为每个文档的特征表示。之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法。
我的理解正确吗?谢谢。
【问题讨论】:
【参考方案1】:是的,您可以将 LDA 的输出视为文档的特征;这正是 Blei、Ng 和 Jordan 在paper that introduced LDA 中所做的。他们这样做是为了分类,但对于聚类,过程是相同的。
(在机器学习术语中,LDA 的这种使用称为降维,因为它将特征空间的维数从 |V|(词汇量大小)减少到用户选择了 k 个主题。)
【讨论】:
但在他们的论文中,他们声称使用了后验狄利克雷参数$\gamma(w)$,这与这里的概率比例不同。我同意在特征减少方面的基本思想是相同的。但我担心的是他们为什么选择使用$\gamma(w)$,在我看来它并没有像概率比例那样非常明确的物理意义。我很好奇他们的根本原因。但是我没有在论文中得到明确的解释。 @user:我对 LDA 内部结构不太熟悉。我建议您尝试对比例进行聚类,如果不起作用,请在metaoptimize.com 处询问这种选择的原因是什么。如果您愿意,请在此处发布链接,我很感兴趣。 后验$\gamma(w)$可以理解为主题的平滑混合比例。以上是关于潜在狄利克雷分配与文档聚类的关系的主要内容,如果未能解决你的问题,请参考以下文章
主题建模 - 将具有前 2 个主题的文档分配为类别标签 - sklearn 潜在狄利克雷分配