聚类算法综述

Posted 大勤喵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚类算法综述相关的知识,希望对你有一定的参考价值。

聚类算法综述


步骤

聚类算法综述


其中,在validation中根据聚类的不同分3中策略:

聚类算法综述



聚类算法的分类:

聚类算法综述

距离度量 层次聚类

聚类算法综述

根节点与叶子节点 

聚类算法综述




聚类算法综述

误差,如kmeans, ISODATA

图论


聚类算法综述

聚类算法综述

其中,常见的距离度量公式有:


聚类算法综述

聚类算法综述


常见算法的复杂度比较:

聚类算法综述

聚类算法综述


* 每种方法都有范式的表达,具体需要的时候再返回来具体看。


聚类到底应该分多少类?

聚类算法综述

它是聚类有效性的根本问题

聚类算法综述

聚类算法综述



聚类算法综述

EM算法 蒙特卡洛交叉验证 K


ACI和BCI,及其他一些参数

聚类算法综述

聚类算法综述


其他方法:

聚类算法综述

聚类算法综述


除了上述的固定类别个数方法,还有一些自适应确定聚类数据的方法:

聚类算法综述



总结:

没有一个算法是普遍适用的

聚类算法综述


对好的算法的要求

聚类算法综述

聚类算法综述

I) generate arbitrary shapes of clusters rather than be confined to some particular shape;

II) handle large volume of data as well as high-dimensional features with acceptable time and storage complexities; 

III) detect and remove possible outliers and noise; 

IV) decrease the reliance of algorithms on users-dependent parameters; 

V) have the capability of dealing with newly occurring data without relearning from the scratch; 

VI) be immune to the effects of order of input patterns; VII) provide some insight for the number of potential clusters without prior knowledge;

VIII) show good data visualization and provide users with results that can simplify further analysis; 

IX) be capable of handling both numerical and nominal data or be easily adaptable to some other data type.


特征的选择准则  


* 很好的综述,里面还有不同算法在几个应用中的对比示例。


以上是关于聚类算法综述的主要内容,如果未能解决你的问题,请参考以下文章

论文两篇重磅机器学习论文:聚类算法综述和分类算法综述

网格聚类算法综述

聚类算法全面综述

常用聚类算法综述

学界 | 从文本挖掘综述分类聚类和信息提取等算法

综述适用于聚类算法的2-D处理器阵列体系结构研究概述