如何在 K 中优化 K - 均值算法

Posted

技术标签:

【中文标题】如何在 K 中优化 K - 均值算法【英文标题】:How to optimal K in K - Means Algorithm [duplicate] 【发布时间】:2011-09-06 22:45:27 【问题描述】:

可能重复:How do I determine k when using k-means clustering?

如果我不了解数据,我如何最初选择 K?

谁能帮我选K。

谢谢 纳文

【问题讨论】:

重要的是要认识到没有一种完全原则性的集群方式。通常,您必须隐式指定密度。对于 k-means,您通过簇数指定密度。对于均值偏移,您必须选择邻域大小。即使您使用某些标准来选择集群数量或邻域大小,您仍然选择使用该方法。 通过查看clustering 标签,您可能会在CrossValidated 上找到一些有用的线索。 完全重复@***.com/q/1793532/353278 && ***.com/q/5933970/353278 我在这里用六种方法(使用R)回答了一个类似的问题:***.com/a/15376462/1036500 【参考方案1】:

基本思想是评估样本数据上的聚类评分,通常是聚类内的距离和聚类之间的距离。此度量越多,聚类效果越好,基于此度量,您可以选择最佳聚类参数。可以在此处找到其中一项指标http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html

【讨论】:

【参考方案2】:

说真的,你想知道什么?你想让我们告诉你一些数字吗?或者如何找到最优k的策略?您必须阅读有关 k-means 的书或其他资源,我很确定它已包含在其中。

***上有关于它的内容:

http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

在使用算法之前,请阅读它。

【讨论】:

以上是关于如何在 K 中优化 K - 均值算法的主要内容,如果未能解决你的问题,请参考以下文章

如何在 K 中优化 K - 均值算法

K-NN 算法如何在 rapidminer 中以相同的距离工作?

教程 | 如何为时间序列数据优化K-均值聚类速度?

无监督学习——聚类算法

三种聚类方法:层次、K均值、密度

「聚类分析」16聚类分析之KMeans算法与K中心点算法