机器学习---算法---k-means算法

Posted 2021-01-25 qing1991

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习---算法---k-means算法相关的知识，希望对你有一定的参考价值。

转自：https://blog.csdn.net/zhihua_oba/article/details/73832614

k-means算法详解
主要内容
k-means算法简介
k-means算法详解
k-means算法优缺点分析
k-means算法改进算法k-means++
1、k-means算法简介
??k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数据集。
??k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值（这种均值是一种对类簇中心的描述），因此，k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。数据对象间距离的计算有很多种，k-means算法通常采用欧氏距离来计算数据对象间的距离。

2、k-means算法详解
??k-means算法以距离作为数据对象间相似性度量的标准，通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式：
技术分享图片

其中，D表示数据对象的属性个数。
??k-means算法聚类过程中，每次迭代，对应的类簇中心需要重新计算（更新）：对应类簇中所有数据对象的均值，即为更新后该类簇的类簇中心。定义第k个类簇的类簇中心为Centerk，则类簇中心更新方式如下：

技术分享图片

其中，Ck表示第k个类簇，|Ck|表示k个类簇中数据对象的个数，这里的求和是指类簇CkCk中所有元素在每列属性上的和，因此CenterkCenterk也是一个含有DD个属性的向量，表示为Centerk=(Centerk,1,Centerk,2,...,Centerk,D)Centerk=(Centerk,1,Centerk,2,...,Centerk,D)。
??k-means算法需要不断地迭代来重新划分类簇，并更新类簇中心，那么迭代终止的条件是什么呢？一般情况，有两种方法来终止迭代：一种方法是设定迭代次数TT，当到达第TT次迭代，则终止迭代，此时所得类簇即为最终聚类结果；另一种方法是采用误差平方和准则函数，函数模型如下：
技术分享图片

其中，K表示类簇个数。当两次迭代JJ的差值小于某一阈值时，即ΔJ<δΔJ<δ时，则终止迭代，此时所得类簇即为最终聚类结果。
??k-means算法思想可描述为：首先初始化KK个类簇中心；然后计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，更新类簇中心；然后继续计算各个数据对象到聚类中心的距离，把数据对象划分至距离其最近的聚类中心所在类簇中；接着根据所得类簇，继续更新类簇中心；……一直迭代，直到达到最大迭代次数TT，或者两次迭代JJ的差值小于某一阈值时，迭代终止，得到最终聚类结果。算法详细流程描述如下：

技术分享图片

??k-means算法聚类过程示意图，如下：

技术分享图片

其中，黑色圆点代表类簇中心，白色圆点代表待聚类数据对象。
3、k-means算法优缺点分析
- 优点：
??算法简单易实现；
- 缺点：
??需要用户事先指定类簇个数KK；
??聚类结果对初始类簇中心的选取较为敏感；
??容易陷入局部最优；
??只能发现球型类簇；

4、k-means算法改进方法
??初始类簇中心的选取，可以通过k-means++算法进行改进。

以上是关于机器学习---算法---k-means算法的主要内容，如果未能解决你的问题，请参考以下文章

推荐｜数据科学家需要了解的5大聚类算法

机器学习---算法---k-means算法

如何使用matlab在K-means算法后绘制具有不同颜色簇的PCA散点图？

K-Means算法：基于聚类的无监督机器学习算法

机器学习(25)之K-Means聚类算法详解

机器学习K-Means算法优化