K-means 的种子选择策略
Posted
技术标签:
【中文标题】K-means 的种子选择策略【英文标题】:Seed selection strategies for K-means 【发布时间】:2011-12-03 19:36:42 【问题描述】:我想知道我可以将哪种种子选择方法应用于 K-means 算法。谷歌搜索没有那么有用。有什么建议吗?
【问题讨论】:
看两遍 k-means:k-means 是一个随机样本,使用这些中心作为批次的种子。见should-we-use-k-means++。 【参考方案1】:种子取决于域。例如,如果您的数据项是单词,那么您的种子应该是最常见的单词。否则,您可以聚类一个小样本并将其用作种子。
这是一个更复杂的算法示例:
k-Means 的单程种子选择算法。 K. Karteeka Pavan, Allam Appa Rao, A.V. Dattatreya Rao 和 G.R.斯里达尔。 计算机科学学报 6 (1): 60-66, 2010.pdf
【讨论】:
【参考方案2】:Google 中的“监督”k 表示聚类,k++ 表示....还指定您的性能需求(您的 k 是多少?有多少输入点?)
一般来说,几千个点可以很容易地聚集到一个朴素的 k 意味着算法实现......所以我会先尝试。
另外,如果您不确定 K 应该是多少,请先尝试 MCL 聚类以获得良好的估计值。
【讨论】:
以上是关于K-means 的种子选择策略的主要内容,如果未能解决你的问题,请参考以下文章