改进 k-means 聚类

Posted

技术标签:

【中文标题】改进 k-means 聚类【英文标题】:Improving k-means clustering 【发布时间】:2011-06-06 14:12:14 【问题描述】:

我关于计算机视觉的讲义提到,如果我们知道集群的标准差,可以提高 k-means 聚类算法的性能。为何如此?

我的想法是,我们可以首先通过基于直方图的分割来使用标准偏差来提出更好的初始估计。你怎么看?感谢您的帮助!

【问题讨论】:

【参考方案1】:

您的讲师可能会想到2002 paper by Veenman et al。基本思想是您设置每个集群中允许的最大方差。您从与数据点一样多的集群开始,然后通过

“进化”集群 如果结果集群的方差低于阈值,则合并相邻集群 如果集群的方差高于阈值,则隔离“远”的元素 或在相邻簇之间移动一些元素,如果它减少平方误差的总和

(这种演变充当全局优化过程,并防止初始分配集群意味着您在 k-means 中的不良后果)

总而言之,如果你知道方差,你就知道集群应该有多大的变化,所以更容易例如检测异常值(通常应将其放入单独的集群中)。

【讨论】:

优秀的答案!最后一个问题-异常值通常会被制成自己的新集群,对吗?顺便说一句,哈哈@ ang mo——我以前去过新加坡,我知道“ang mo”是什么意思! :) 是的:异常值将使用隔离运算符放入单独的集群中(或者它们不会首先合并)

以上是关于改进 k-means 聚类的主要内容,如果未能解决你的问题,请参考以下文章

K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比

机器学习K-Means聚类的执行过程?优缺点?有哪些改进的模型?

网安学术一种改进的K-means聚类算法在图像分割中的应用

k-means原理优缺点及改进

k-means算法的优缺点以及改进

聚类算法,k-means,高斯混合模型(GMM)