机器学习算法学习---处理聚类问题常用算法
Posted zhenpengwang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习算法学习---处理聚类问题常用算法相关的知识,希望对你有一定的参考价值。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相 比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。
1) 可以对任意形状的稠密数据集进行聚类,相对的,K-Means之类的聚类算法一般只适用于凸数据集。
2) 可以在聚类的同时发现异常点,对数据集中的异常点不敏感。
3) 聚类结果没有偏倚,相对的,K-Means之类的聚类算法初始值对聚类结果有很大影响。
DBSCAN的主要缺点有:
1)如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时用DBSCAN聚类一般不适合。
2) 如果样本集较大时,聚类收敛时间较长,此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。
3) 调参相对于传统的K-Means之类的聚类算法稍复杂,主要需要对距离阈值eps,邻域样本数阈值MinPts联合调参,不同的参数组合对最后的聚类效果有较大影响。
算法实现过程:对每个数据点为圆心,以eps为半径画个圈(称为邻域eps-neigbourhood),然后数有多少个点在这个圈内,这个数就是该点密度值。然后我们可以选取一个密度阈值MinPts,如圈内点数小于MinPts的圆心点为低密度的点,而大于或等于MinPts的圆心点高密度的点(称为核心点Core point)。如果有一个高密度的点在另一个高密度的点的圈内,我们就把这两个点连接起来,这样我们可以把好多点不断地串联出来。之后,如果有低密度的点也在高密度的点的圈内,把它也连到最近的高密度点上,称之为边界点。这样所有能连到一起的点就成一了个簇,而不在任何高密度点的圈内的低密度点就是异常点。(任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。)
相关定义:ε-邻域、核心对象、密度可达、密度直达、密度相连距离度量:最近邻思想
样本到两个核心对象的距离都小于eps,但两个核心对象不是密度直达,也不属于同一个聚类簇,那该样本属于哪一类:先来后到原则,所以不稳定。
阈值确定:通过可视化选择。
改进措施:
(1)利用SNN替换距离计算。
(2)一种基于密度峰值的算法DP (Clustering by fast search and find of density peaks),也是采用可视化的方法来帮助查找不同密度的簇。
python实现:
以上是关于机器学习算法学习---处理聚类问题常用算法的主要内容,如果未能解决你的问题,请参考以下文章