K-Mean 聚类:评估新的聚类中心

Posted

技术标签:

【中文标题】K-Mean 聚类:评估新的聚类中心【英文标题】:K-Mean Clustering: Evaluating new Cluster centers 【发布时间】:2015-07-29 13:33:58 【问题描述】:

是在所有数据点的每次迭代之后评估新的集群中心,还是在为每个数据点分配集群之后评估新的集群中心更好?澄清一下,这两种方法中的哪一种是首选:

    您将所有数据点分配给各个集群,然后找到新的集群中心 或者,您将下一个数据点分配给最近的集群并找到新的集群中心,然后重复移动到下一个点...

【问题讨论】:

【参考方案1】:

这或多或少是两种主要方法

    这或多或少是 Lloyd 方法 - 您迭代所有数据点,将每个数据点分配给最近的集群,然后相应地移动所有中心,重复。 这或多或少是一种 Hartigan 方法 - 您迭代每个数据点并查看是否将其移动到其他集群更好(它是否会最小化能量/使集群更“密集”),重复直到没有可能的变化.

两者哪个更好?实证研究显示了 Hartigan 方法的多重优势。特别是可以证明,Hartigan 不会比 Lloyd 工作得更差(每个 Hartigan 最优值也是 Lloyd 最优值,但不是相反)。 http://ijcai.org/papers13/Papers/IJCAI13-249.pdf 中有一个很好的理论和实践分析表明,应该遵循第二种方法,特别是如果数据中有许多可能不相关的特征。

【讨论】:

但是,如果您建议 Hartigan 方法更好,这不会导致在该过程的早期获得局部最优值的问题,从而导致更多的迭代次数达到全局最优值。例如,假设您考虑的第一个数据点是您获得的最终集群中最远的数据点,从而使第一个集群中心更新非常不准确。但是,如果您遵循 Lloyd 的方法,那么第一次更新不会总是至少与 Hartigan 的一样准确。不是事实,只是想知道...... 每个方法都有一个反例,这不是重点。看看测试,一般来说 - 劳埃德的表现更差,这只是一个经验结论,而不是理论结果:) lejlot 您似乎对集群有丰富的经验,如果您有时间可以检查一下这个问题:***.com/questions/32404742/…ty

以上是关于K-Mean 聚类:评估新的聚类中心的主要内容,如果未能解决你的问题,请参考以下文章

K-mean matlab 实现代码

根据 Pairs 评估 Scikit-learn 中的聚类

无人机布局优化基于k-mean聚类的无人机布局优化matlab源码

聚类 高维聚类 聚类评估标准

K-means

数据分析 第六篇:聚类的评估(簇数确定和轮廓系数)和可视化