python k-means聚类文本

Posted

技术标签:

【中文标题】python k-means聚类文本【英文标题】:python k-means clustering text 【发布时间】:2016-08-14 19:07:18 【问题描述】:

我正在尝试寻找一个示例来帮助我对我拥有的一些文本数据进行聚类。数据格式为:

A,B,3
C,D,5
A,D,57

前两个条目是一对的成员,数字是这对在数据集中出现的频率。我有超过 200,000 对独特的配对。

有什么建议吗?谢谢!!

【问题讨论】:

您的问题到底是什么?你试过什么? 几乎只是试图找到一段与我正在尝试做的事情类似的代码。我发现的只是对文档进行聚类的代码,而不是对。问题是,我收到的描述/要求可能是错误的。谢谢你的回答! 【参考方案1】:

不要对此类数据使用 k-means。

它不会起作用。

您拥有的是相似度矩阵,而不是 k-means 所需的连续向量。您可以尝试分层聚类(具有稀疏相似性,不是距离;不,我不会为您编写代码)。

【讨论】:

谢谢!我绝不是要求任何人给我写代码,但我很难找到与我正在尝试做的事情相似的任何事情。这说明了为什么会这样。谢谢。

以上是关于python k-means聚类文本的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 k-means (Flann with python) 对文档进行聚类?

K-means聚类的Python实现

K-Means VS K-模式? (文本聚类)

python k-means聚类实例

用 PCA 解释 K-Means 聚类 - Python

在python中使用k-means聚类提取质心?