K-Means聚类算法

Posted 2023-03-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了K-Means聚类算法相关的知识，希望对你有一定的参考价值。

参考技术A         所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的数据有相似的特征，如下图所示：

        根据样本之间的距离或者说是相似性（亲疏性），把越相似、差异越小的样本聚成一类（簇），最后形成多个簇，使同一个簇内部的样本相似度高，不同簇之间差异性高。

相关概念：

K值：要得到的簇的个数

质心：每个簇的均值向量，即向量各维取平均即可

距离量度：常用欧几里得距离和余弦相似度（先标准化）

算法流程：

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），我们可以认为聚类已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代3~5步骤。

K-Means采用的启发式方式很简单，用下面一组图就可以形象的描述:

        上图a表达了初始的数据集，假设k=2。在图b中，我们随机选择了两个k类所对应的类别质心，即图中的红色质心和蓝色质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心，如图d所示，新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。

坐标系中有六个点：

1、我们分两组，令K等于2，我们随机选择两个点：P1和P2

2、通过勾股定理计算剩余点分别到这两个点的距离：

3、第一次分组后结果：

        组A：P1

        组B：P2、P3、P4、P5、P6

4、分别计算A组和B组的质心：

A组质心还是P1=（0，0）

        B组新的质心坐标为：P哥=（（1+3+8+9+10）/5，（2+1+8+10+7）/5）=（6.2，5.6）

5、再次计算每个点到质心的距离：

6、第二次分组结果：

        组A：P1、P2、P3

        组B：P4、P5、P6

7、再次计算质心：

        P哥1=（1.33，1）

        P哥2=（9，8.33）

8、再次计算每个点到质心的距离：

9、第三次分组结果：

        组A：P1、P2、P3

        组B：P4、P5、P6

可以发现，第三次分组结果和第二次分组结果一致，说明已经收敛，聚类结束。

优点：

1、原理比较简单，实现也是很容易，收敛速度快。

2、当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。

3、主要需要调参的参数仅仅是簇数k。

缺点：

1、K值需要预先给定，很多情况下K值的估计是非常困难的。

2、K-Means算法对初始选取的质心点是敏感的，不同的随机种子点得到的聚类结果完全不同，对结果影响很大。

3、对噪音和异常点比较的敏感。用来检测异常值。

4、采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。

1、K值怎么定？

        答：分几类主要取决于个人的经验与感觉，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等。或者可以把各种K值算出的 E 做比较，取最小的 E 的K值。

2、初始的K个质心怎么选？

        答：最常用的方法是随机选，初始质心的选取对最终聚类结果有影响，因此算法一定要多执行几次，哪个结果更reasonable，就用哪个结果。当然也有一些优化的方法，第一种是选择彼此距离最远的点，具体来说就是先选第一个点，然后选离第一个点最远的当第二个点，然后选第三个点，第三个点到第一、第二两点的距离之和最小，以此类推。第二种是先根据其他聚类算法（如层次聚类）得到聚类结果，从结果中每个分类选一个点。

3、关于离群值？

        答：离群值就是远离整体的，非常异常、非常特殊的数据点，在聚类之前应该将这些“极大”“极小”之类的离群数据都去掉，否则会对于聚类的结果有影响。但是，离群值往往自身就很有分析的价值，可以把离群值单独作为一类来分析。

4、单位要一致！

        答：比如X的单位是米，Y也是米，那么距离算出来的单位还是米，是有意义的。但是如果X是米，Y是吨，用距离公式计算就会出现“米的平方”加上“吨的平方”再开平方，最后算出的东西没有数学意义，这就有问题了。

5、标准化

        答：如果数据中X整体都比较小，比如都是1到10之间的数，Y很大，比如都是1000以上的数，那么，在计算距离的时候Y起到的作用就比X大很多，X对于距离的影响几乎可以忽略，这也有问题。因此，如果K-Means聚类中选择欧几里德距离计算距离，数据集又出现了上面所述的情况，就一定要进行数据的标准化（normalization），即将数据按比例缩放，使之落入一个小的特定区间。

参考文章：聚类、K-Means、例子、细节

K-Means聚类算法原理

　　　　K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。

一、K-Means原理初探

　　　　K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

　　　　如果用数据表达式表示，假设簇划分为\((C_1,C_2,...C_k)\)，则我们的目标是最小化平方误差E：
\[ E = \sum\limits_i=1^k\sum\limits_x \in C_i |x-\mu_i|_2^2 \]

　　　　其中\(\mu_i\)是簇\(C_i\)的均值向量，有时也称为质心，表达式为：
\[ \mu_i = \frac1|C_i|\sum\limits_x \in C_ix \]

　　　　如果我们想直接求上式的最小值并不容易，这是一个NP难的问题，因此只能采用启发式的迭代方法。

　　　　K-Means采用的启发式方式很简单，用下面一组图就可以形象的描述。

技术图片

　　　　上图a表达了初始的数据集，假设k=2。在图b中，我们随机选择了两个k类所对应的类别质心，即图中的红色质心和蓝色质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心，如图4所示，新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。

　　　　当然在实际K-Mean算法中，我们一般会多次运行图c和图d，才能达到最终的比较优的类别。

二、传统K-Means算法流程

　　　　在上一节我们对K-Means的原理做了初步的探讨，这里我们对K-Means的算法做一个总结。

　　　　首先我们看看K-Means算法的一些要点。

　　　　1）对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值。

　　　　2）在确定了k的个数后，我们需要选择k个初始化的质心，就像上图b中的随机质心。由于我们是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心，最好这些质心不能太近。

　　　　好了，现在我们来总结下传统的K-Means算法流程。　

　　　　输入是样本集\(D=\x_1,x_2,...x_m\\),聚类的簇树k,最大迭代次数N

　　　　输出是簇划分\(C=\C_1,C_2,...C_k\\)　

　　　　1) 从数据集D中随机选择k个样本作为初始的k个质心向量：?\(\\mu_1,\mu_2,...,\mu_k\\)

　　　　2）对于n=1,2,...,N

　　　　　　a) 将簇划分C初始化为\(C_t = \varnothing \;\; t =1,2...k\)

　　　　　　b) 对于i=1,2...m,计算样本\(x_i\)和各个质心向量\(\mu_j(j=1,2,...k)\)的距离：\(d_ij = |x_i - \mu_j|_2^2\)，将\(x_i\)标记最小的为\(d_ij\)所对应的类别\(\lambda_i\)。此时更新\(C_\lambda_i = C_\lambda_i \cup \x_i\\)

　　　　　　c) 对于j=1,2,...,k,对\(C_j\)中所有的样本点重新计算新的质心\(\mu_j = \frac1|C_j|\sum\limits_x \in C_jx\)

　　　　　　e) 如果所有的k个质心向量都没有发生变化，则转到步骤3）

　　　　3）输出簇划分\(C=\C_1,C_2,...C_k\\)

三、K-Means初始化优化K-Means++

　　　　在上节我们提到，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心。如果仅仅是完全随机的选择，有可能导致算法收敛很慢。K-Means++算法就是对K-Means随机初始化质心的方法的优化。

　　　　K-Means++的对于初始化质心的优化策略也很简单，如下：

　　　　a)??从输入的数据点集合中随机选择一个点作为第一个聚类中心\(\mu_1\)
　　　　b) 对于数据集中的每一个点\(x_i\)，计算它与已选择的聚类中心中最近聚类中心的距离\(D(x_i) = arg\;min|x_i- \mu_r|_2^2\;\;r=1,2,...k_selected\)

　　　　c) 选择一个新的数据点作为新的聚类中心，选择的原则是：\(D(x)\)较大的点，被选取作为聚类中心的概率较大
　　　　d) 重复b和c直到选择出k个聚类质心
　　　　e) 利用这k个质心来作为初始化质心去运行标准的K-Means算法

四、K-Means距离计算优化elkan K-Means

　　　　在传统的K-Means算法中，我们在每轮迭代时，要计算所有的样本点到所有的质心的距离，这样会比较的耗时。那么，对于距离的计算有没有能够简化的地方呢？elkan K-Means算法就是从这块入手加以改进。它的目标是减少不必要的距离的计算。那么哪些距离不需要计算呢？

　　　　elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质，来减少距离的计算。

　　　　第一种规律是对于一个样本点\(x\)和两个质心\(\mu_j_1, \mu_j_2\)。如果我们预先计算出了这两个质心之间的距离\(D(j_1,j_2)\)，则如果计算发现\(2D(x,j_1) \leq D(j_1,j_2)\),我们立即就可以知道\(D(x,j_1) \leq D(x, j_2)\)。此时我们不需要再计算\(D(x, j_2)\),也就是说省了一步距离计算。

　　　　第二种规律是对于一个样本点\(x\)和两个质心\(\mu_j_1,?\mu_j_2\)。我们可以得到\(D(x,j_2) \geq max\0, D(x,j_1) - D(j_1,j_2)\\)。这个从三角形的性质也很容易得到。

　　　　利用上边的两个规律，elkan K-Means比起传统的K-Means迭代速度有很大的提高。但是如果我们的样本的特征是稀疏的，有缺失值的话，这个方法就不使用了，此时某些距离无法计算，则不能使用该算法。

五、大样本优化Mini Batch K-Means

　　　　在统的K-Means算法中，要计算所有的样本点到所有的质心的距离。如果样本量非常大，比如达到10万以上，特征有100以上，此时用传统的K-Means算法非常的耗时，就算加上elkan K-Means优化也依旧。在大数据时代，这样的场景越来越多。此时Mini Batch K-Means应运而生。

　　　　顾名思义，Mini Batch，也就是用样本集中的一部分的样本来做传统的K-Means，这样可以避免样本量太大时的计算难题，算法收敛速度大大加快。当然此时的代价就是我们的聚类的精确度也会有一些降低。一般来说这个降低的幅度在可以接受的范围之内。

　　　　在Mini Batch K-Means中，我们会选择一个合适的批样本大小batch size，我们仅仅用batch size个样本来做K-Means聚类。那么这batch size个样本怎么来的？一般是通过无放回的随机采样得到的。

　　　　为了增加算法的准确性，我们一般会多跑几次Mini Batch K-Means算法，用得到不同的随机采样集来得到聚类簇，选择其中最优的聚类簇。

六、K-Means与KNN

　　　　初学者很容易把K-Means和KNN搞混，两者其实差别还是很大的。

　　　　K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

　　　　当然，两者也有一些相似点，两个算法都包含一个过程，即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。

七、K-Means小结

　　　　K-Means是个简单实用的聚类算法，这里对K-Means的优缺点做一个总结。

　　　　K-Means的主要优点有：

　　　　1）原理比较简单，实现也是很容易，收敛速度快。

　　　　2）聚类效果较优。

　　　　3）算法的可解释度比较强。

　　　　4）主要需要调参的参数仅仅是簇数k。

　　　　K-Means的主要缺点有：

　　　　1）K值的选取不好把握

　　　　2）对于不是凸的数据集比较难收敛

　　　　3）如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。

　　　　4）采用迭代方法，得到的结果只是局部最优。

　　　　5）对噪音和异常点比较的敏感。

（欢迎转载，转载请注明出处。欢迎沟通交流：微信：nickchen121）?

以上是关于K-Means聚类算法的主要内容，如果未能解决你的问题，请参考以下文章