如何在 K 中优化 K - 均值算法
Posted
技术标签:
【中文标题】如何在 K 中优化 K - 均值算法【英文标题】:How to optimal K in K - Means Algorithm [duplicate] 【发布时间】:2011-09-06 22:45:27 【问题描述】:可能重复:How do I determine k when using k-means clustering?
如果我不了解数据,我如何最初选择 K?
谁能帮我选K。
谢谢 纳文
【问题讨论】:
重要的是要认识到没有一种完全原则性的集群方式。通常,您必须隐式指定密度。对于 k-means,您通过簇数指定密度。对于均值偏移,您必须选择邻域大小。即使您使用某些标准来选择集群数量或邻域大小,您仍然选择使用该方法。 通过查看clustering 标签,您可能会在CrossValidated 上找到一些有用的线索。 完全重复@***.com/q/1793532/353278 && ***.com/q/5933970/353278 我在这里用六种方法(使用R
)回答了一个类似的问题:***.com/a/15376462/1036500
【参考方案1】:
基本思想是评估样本数据上的聚类评分,通常是聚类内的距离和聚类之间的距离。此度量越多,聚类效果越好,基于此度量,您可以选择最佳聚类参数。可以在此处找到其中一项指标http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html
【讨论】:
【参考方案2】:说真的,你想知道什么?你想让我们告诉你一些数字吗?或者如何找到最优k
的策略?您必须阅读有关 k-means 的书或其他资源,我很确定它已包含在其中。
***上有关于它的内容:
http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set
在使用算法之前,请阅读它。
【讨论】:
以上是关于如何在 K 中优化 K - 均值算法的主要内容,如果未能解决你的问题,请参考以下文章