K-means 的种子选择策略

Posted 2023-03-12

技术标签:

【中文标题】K-means 的种子选择策略【英文标题】：Seed selection strategies for K-means 【发布时间】：2011-12-03 19:36:42 【问题描述】：

我想知道我可以将哪种种子选择方法应用于 K-means 算法。谷歌搜索没有那么有用。有什么建议吗？

【问题讨论】：

看两遍 k-means：k-means 是一个随机样本，使用这些中心作为批次的种子。见should-we-use-k-means++。 【参考方案1】：

种子取决于域。例如，如果您的数据项是单词，那么您的种子应该是最常见的单词。否则，您可以聚类一个小样本并将其用作种子。

这是一个更复杂的算法示例：

k-Means 的单程种子选择算法。 K. Karteeka Pavan, Allam Appa Rao, A.V. Dattatreya Rao 和 G.R.斯里达尔。计算机科学学报 6 (1): 60-66, 2010.pdf

【讨论】：

【参考方案2】：

Google 中的“监督”k 表示聚类，k++ 表示....还指定您的性能需求（您的 k 是多少？有多少输入点？）

一般来说，几千个点可以很容易地聚集到一个朴素的 k 意味着算法实现......所以我会先尝试。

另外，如果您不确定 K 应该是多少，请先尝试 MCL 聚类以获得良好的估计值。

【讨论】：

以上是关于K-means 的种子选择策略的主要内容，如果未能解决你的问题，请参考以下文章