K-means 聚类算法的理解与案例实战

Posted 2021-04-09 码农故事多

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了K-means 聚类算法的理解与案例实战相关的知识，希望对你有一定的参考价值。

前言

工作之后，发现对算法和技术的理解和上学时学习是不一样的，当时也整理了几篇关于k-means聚类的文章，但是现在看起来比较苍白和空洞，于是打算带着重新学习的态度对以往学习过或者见过的一些机器学习算法进行温习和总结，写的不足之处还望路过大神指点一二。

1:《机器学习实战》kMeans算法（K均值聚类算法）

2:《机器学习实战》二分-kMeans算法（二分K均值聚类）

3：scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法

聚类分析

聚类分析（Cluster Analysisi）也被成为集群分析，基于生活中物以类聚的思想，是对某个样本或者指标进行分类多元统计分析的方法，他需要一组单独的属性特征或特性的代表变量，称为聚类变量。根据个人的样品或松紧之间的联系进行分类，一般分类的变量由研究者指定。

聚类分析的方法要求：
1. 聚类分析要简单，便于人直观的理解
2. 聚类分析主要是对未知事务的类别相似性探索，可能会有多个分析结果
3. 聚类分析一般情况必须是收敛的，无论现实中是否存在都能够得出客观的解
4. 聚类分析中的聚类属性选择是客观的，可以选择一个属性，也可以选择几个属性
5. 聚类分析的解完全依赖于研究者所选择的聚类变量，增加或者删除一些变量对最终的解都可能产生实质性的影响

什么是kmeans

其基本思想是根据随机给取的k个初始簇类中心，按照“距离最近”的原则将每条数据划分到最近的簇类中心，第一次迭代之后更新各个簇类中心，进行第二次的迭代，依旧按照“距离最近”原则进行数据归类，直到簇类不再改变，停止迭代。

具体的执行步骤如下：

输入：用户需要输入分类簇的数目K以及包含n个数据对象的数据集合。
输出：k个聚类完成的簇
步骤1：在输入的数据对象集合中随机初始化k个点作为k-means算法样本；
步骤2：计算给定的数据集合分别到初始化聚类中心的几何距离
步骤3：按照距离最短原则将没一点数据分配到最邻近的簇中
步骤4：使用每个簇中的样本数据几何中心作为新分类的聚类中心；
步骤5：反复迭代算法中步骤2、步骤3和步骤4直到算法收敛为止
步骤6：算法结束，得到输出结果。

那么这里就会引现出几个问题，

1: 初始簇类中心的选择？
2: K值的选择
3: “距离最近”原则具体指什么？
4: 怎么更新簇类中心？
5: 判断簇类收敛到不再改变的条件是什么？

下面我们就来一一解释这些问题

K-means 聚类中初始簇心的选择

选择初始类簇中心点对于聚类效果的好坏有很大的影响，那么我们该如何去确定簇类中心呢？

随机选取

随机选取是最简单的方法，但是也是有技巧的，我们通过对数据的预估来进行观察，从而确定初始的K值，比如说二维平面上的点，我们可以通过将其可视化到二维平面进行肉眼的判断，从而确定k值；比如说对于一些利用特征值进行聚类的数据，我们依旧可以将其进行量化到二维或者三维空间中，当然对于高维数据，首先可以进行降维操作，继而进行可视化。

随机选择法，假设有M行数据，我们可以用使用Python的random模块来随机选取K行作为初始的聚类中心。

初始聚类

选用层次聚类或者Canopy算法进行初始聚类，然后利用这些类簇的中心点作为KMeans算法初始类簇中心点。

常用的层次聚类算法有BIRCH，ROCK，Canopy算法。

层次聚类的思想是：

一层一层地进行聚类，可以从下而上地把小的cluster合并聚集，也可以从上而下地将大的cluster进行分割。似乎一般用得比较多的是从下而上地聚集，这里我们说下自下而上的聚类。
所谓从下而上地合并cluster，具体而言，就是每次找到距离最短的两个cluster，然后进
行合并成一个大的cluster，直到全部合并为一个cluster。整个过程就是建立一个树结构，类似于下图。

Canopy算法的主要思想：

首先定义两个距离T1和T2，T1>T2.从初始的点的集合S中随机移除一个点P，然后对于还在S中的每个点I，计算该点I与点P的距离，如果距离小于T1，则将点I加入到点P所代表的Canopy中，如果距离小于T2，则将点I从集合S中移除，并将点I加入到点P所代表的Canopy中。迭代完一次之后，重新从集合S中随机选择一个点作为新的点P，然后重复执行以上步骤。

Canopy算法执行完毕后会得到很多Canopy，可以认为每个Canopy都是一个Cluster，与KMeans等硬划分算法不同，Canopy的聚类结果中每个点有可能属于多个Canopy。我们可以选择距离每个Canopy的中心点最近的那个数据点，或者直接选择每个Canopy的中心点作为KMeans的初始K个类簇中心点。