在语义上对文档中的词进行无监督聚类

Posted

技术标签:

【中文标题】在语义上对文档中的词进行无监督聚类【英文标题】:Unsupervised Clustering of Words in a document semantically 【发布时间】:2014-02-19 15:33:07 【问题描述】:

我想根据语义相似性对单词进行聚类。目前我有一个文档列表,其中包含检测到的名词短语。我想对文档中这些获得的名词进行聚类,并在语义上无监督地聚类它们?

我查看了 wordnet 和 gensim 库。有什么建议可以真正帮助根据语义相似性获得所需的词组?

【问题讨论】:

【参考方案1】:

对于基于短语共现的相似性(在文档中出现得更频繁的短语会更相似),您可以使用 gensim。

查看潜在语义分析和潜在狄利克雷分配:http://radimrehurek.com/gensim/tut2.html#available-transformations

根据您希望集群做什么,您可以直接将 LSI/LDA 主题用作集群。或者对得到的潜在短语向量等进行聚类。

【讨论】:

我使用 Gensim 来获取主题...我有大约 12 周的文档,它们之间有很多技术术语。在获得语义簇时,位于簇中的词有很多重叠,即相似词出现在获得的簇中。如何获得不重叠的语义簇?

以上是关于在语义上对文档中的词进行无监督聚类的主要内容,如果未能解决你的问题,请参考以下文章

11.理解分类与监督学习聚类与无监督学习。

短语的无监督语义聚类

聚类算法在语义分割管道中的作用?

Python无监督学习的4大聚类算法

使用 Haskell 进行无监督聚类

是否可以在无监督学习中使用分组的数据行对数据进行聚类?