K-Means VS K-模式? (文本聚类)

Posted

技术标签:

【中文标题】K-Means VS K-模式? (文本聚类)【英文标题】:K-Means VS K-Modes? (text clustering) 【发布时间】:2019-04-06 13:10:22 【问题描述】:

我了解 K-Means 可用于通过矢量化和查找文档的 TF-IDF 值来对文档进行聚类。除了分类/连续变量定义之外,我们何时/如何决定哪一个 (K-Means or K-modes) 可能会产生更好的结果?是真的能给出更好的结果还是要根据具体情况?

我已经使用 tf-idf 进行了 KMeans 聚类,它们似乎给出了不错的结果,但我找不到任何材料来比较两者以冒险进入 K-Modes。互联网上关于 k-means+tf-idf 的文本聚类也有很多,而在 k-modes 上则不多。任何帮助表示赞赏!

【问题讨论】:

【参考方案1】:

K-modes 实际上只适用于分类数据。不适用于 sparse 数值数据,例如词袋或 tf-idf 向量。

考虑模式:它通常不会给出全零向量吗?然后你所有的集群手段都会消失。

根据我的经验,文本上的 k-means 也非常很糟糕,除了你的数据。因为它无法处理异常值,并且文本数据中充满了异常值文档。

【讨论】:

以上是关于K-Means VS K-模式? (文本聚类)的主要内容,如果未能解决你的问题,请参考以下文章

对比传统K-Means等聚类算法,LDA主题模型在文本聚类上有何优缺点

使用 sklearn_pandas 查找 k-means 聚类最重要的词

Python | 实现 K-means 聚类——多维数据聚类散点图绘制

从文本到 K-Means 向量输入

文本聚类:在 k 中选择 k 意味着

K-均值(K-means)聚类算法