主题建模和文档聚类之间有啥关系?

Posted

技术标签:

【中文标题】主题建模和文档聚类之间有啥关系?【英文标题】:What is the relation between topic modeling and document clustering?主题建模和文档聚类之间有什么关系? 【发布时间】:2013-03-07 14:34:51 【问题描述】:

主题建模识别文档集合中的主题分布,从而有效地识别集合中的集群。那么说主题建模是一种文档聚类技术是否正确?

【问题讨论】:

【参考方案1】:

主题与文档集群有很大不同,毕竟主题不是由文档组成的。

但是,这两种技术确实是相关的。我相信主题建模是一种确定文档相似程度的可行方法,因此是一种可行的文档聚类方法。

在将每个文档表示为主题分布(实际上是一个向量)时,主题建模技术将特征维度从出现(在语料库中)的不同单词的数量减少到主题的数量。可以使用余弦度量和许多其他度量来计算文档的主题分布之间的相似性,这些度量反映了文档本身在它们所涵盖的主题/主题方面的相似性。基于这种量化的相似性度量,可以应用许多聚类算法对文档进行分组。

从这个意义上说,我认为主题建模是一种进行文档聚类的技术是正确的。

【讨论】:

【参考方案2】:

聚类与分类的关系与主题建模与多标签分类的关系非常相似。

在单标签多类分类中,我们只为每个文档分配一个标签。在聚类中,我们将每个文档放在一个组中。事实是我们不能像定义标签一样提前定义集群。如果我们忽略这个事实,分组和标签本质上是一回事。

然而,在现实世界的问题中,平面分类是不够的。通常文档与多个类别/类相关。因此,我们利用了多标签分类。现在,我们可以将主题建模视为多标签分类的无监督版本,因为我们可以将每个文档放在多个组/主题下。在这里,我再次忽略了我们无法提前决定将哪些主题用作标签的事实。

【讨论】:

以上是关于主题建模和文档聚类之间有啥关系?的主要内容,如果未能解决你的问题,请参考以下文章

潜在狄利克雷分配与文档聚类的关系

为 NLP 聚类/主题建模寻找一个好的数据集

尝试在 Spark 中使用 TF-IDF 和 KMeans 对文档进行聚类。这段代码有啥问题?

严重不平衡/倾斜的数据集群

备战数学建模44-聚类模型(攻坚站8)

备战数学建模44-聚类模型(攻坚站8)