机器学习实战精读--------K-均值聚类算法

Posted 2020-10-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习实战精读--------K-均值聚类算法相关的知识，希望对你有一定的参考价值。

一个聚类算法只需要知道如何计算相似度就可以了

K-均值（k-means）聚类算法：该算法可以发现K个不同的簇，每个簇的中心采用簇中所安置的均值计算而成。

分层聚类算法

① BIRCH算法：结合了层次聚类算法和迭代的重定位方法，首先用自底向上的层次算法，然后用迭代的重定位来改进效果。

② DBSCAN算法：具有噪声的基于密度的聚类方法

③ CURE算法：选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或对象来代表一个簇，而是选择数据空间中固定数目的具有代表性的点。每一个簇有多于一个的代表点使得 CURE 可以适应非球形的几何形状。簇的收缩或凝聚可以有助于控制孤立点的影响。因此，CURE 对于孤立点的处理更加好，而且能够识别非球形和大小变化较大的簇。

K-均值聚类算法缺点：最终得到的不是全局最优，大规模数据收敛速度较慢。

K-均值算法的工作流程：一堆数据，选择k个初始点作为质心，为数据集中的每个点找距离它最近的质心，把它分配的该质心所属的簇。最后把每个簇的质心更新为该簇所有点的平均值。（该过程不断迭代）

本文出自 “付炜超” 博客，谢绝转载！

以上是关于机器学习实战精读--------K-均值聚类算法的主要内容，如果未能解决你的问题，请参考以下文章

《机器学习实战》之K均值聚类--基于Python3

数学建模MATLAB应用实战系列（106）-机器学习算法：K-means聚类（附MATLAB代码）

机器学习实战笔记-利用K均值聚类算法对未标注数据分组

K-means 聚类算法的理解与案例实战

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例

机器学习实战精读--------K-近邻算法