K-Means VS K-模式? (文本聚类)
Posted
技术标签:
【中文标题】K-Means VS K-模式? (文本聚类)【英文标题】:K-Means VS K-Modes? (text clustering) 【发布时间】:2019-04-06 13:10:22 【问题描述】:我了解 K-Means 可用于通过矢量化和查找文档的 TF-IDF
值来对文档进行聚类。除了分类/连续变量定义之外,我们何时/如何决定哪一个 (K-Means or K-modes
) 可能会产生更好的结果?是真的能给出更好的结果还是要根据具体情况?
我已经使用 tf-idf 进行了 KMeans 聚类,它们似乎给出了不错的结果,但我找不到任何材料来比较两者以冒险进入 K-Modes。互联网上关于 k-means+tf-idf 的文本聚类也有很多,而在 k-modes 上则不多。任何帮助表示赞赏!
【问题讨论】:
【参考方案1】:K-modes 实际上只适用于分类数据。不适用于 sparse 数值数据,例如词袋或 tf-idf 向量。
考虑模式:它通常不会给出全零向量吗?然后你所有的集群手段都会消失。
根据我的经验,文本上的 k-means 也非常很糟糕,除了你的数据。因为它无法处理异常值,并且文本数据中充满了异常值文档。
【讨论】:
以上是关于K-Means VS K-模式? (文本聚类)的主要内容,如果未能解决你的问题,请参考以下文章
对比传统K-Means等聚类算法,LDA主题模型在文本聚类上有何优缺点
使用 sklearn_pandas 查找 k-means 聚类最重要的词