K-means 的种子选择策略

Posted

技术标签:

【中文标题】K-means 的种子选择策略【英文标题】:Seed selection strategies for K-means 【发布时间】:2011-12-03 19:36:42 【问题描述】:

我想知道我可以将哪种种子选择方法应用于 K-means 算法。谷歌搜索没有那么有用。有什么建议吗?

【问题讨论】:

看两遍 k-means:k-means 是一个随机样本,使用这些中心作为批次的种子。见should-we-use-k-means++。 【参考方案1】:

种子取决于域。例如,如果您的数据项是单词,那么您的种子应该是最常见的单词。否则,您可以聚类一个小样本并将其用作种子。

这是一个更复杂的算法示例:

k-Means 的单程种子选择算法。 K. Karteeka Pavan, Allam Appa Rao, A.V. Dattatreya Rao 和 G.R.斯里达尔。 计算机科学学报 6 (1): 60-66, 2010.pdf

【讨论】:

【参考方案2】:

Google 中的“监督”k 表示聚类,k++ 表示....还指定您的性能需求(您的 k 是多少?有多少输入点?)

一般来说,几千个点可以很容易地聚集到一个朴素的 k 意味着算法实现......所以我会先尝试。

另外,如果您不确定 K 应该是多少,请先尝试 MCL 聚类以获得良好的估计值。

【讨论】:

以上是关于K-means 的种子选择策略的主要内容,如果未能解决你的问题,请参考以下文章

k-means聚类分割

干货|机器学习:Python实现聚类算法之K-Means

福利机器学习:Python实现聚类算法之K-Means

机器学习笔记之一深入浅出学习K-Means算法

k-means:每次执行都使用相同的集群

Lloyd’s 算法 和 K-Means算法