聚类算法综述
Posted 大勤喵
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚类算法综述相关的知识,希望对你有一定的参考价值。
步骤
其中,在validation中根据聚类的不同分3中策略:
聚类算法的分类:
距离度量 层次聚类
根节点与叶子节点
误差,如kmeans, ISODATA
图论
其中,常见的距离度量公式有:
常见算法的复杂度比较:
* 每种方法都有范式的表达,具体需要的时候再返回来具体看。
聚类到底应该分多少类?
它是聚类有效性的根本问题
EM算法 蒙特卡洛交叉验证 K
ACI和BCI,及其他一些参数
其他方法:
除了上述的固定类别个数方法,还有一些自适应确定聚类数据的方法:
总结:
没有一个算法是普遍适用的
对好的算法的要求
I) generate arbitrary shapes of clusters rather than be confined to some particular shape;
II) handle large volume of data as well as high-dimensional features with acceptable time and storage complexities;
III) detect and remove possible outliers and noise;
IV) decrease the reliance of algorithms on users-dependent parameters;
V) have the capability of dealing with newly occurring data without relearning from the scratch;
VI) be immune to the effects of order of input patterns; VII) provide some insight for the number of potential clusters without prior knowledge;
VIII) show good data visualization and provide users with results that can simplify further analysis;
IX) be capable of handling both numerical and nominal data or be easily adaptable to some other data type.
特征的选择准则
* 很好的综述,里面还有不同算法在几个应用中的对比示例。
以上是关于聚类算法综述的主要内容,如果未能解决你的问题,请参考以下文章