聚类算法--KMeans

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚类算法--KMeans相关的知识,希望对你有一定的参考价值。

参考技术A     与分类、序列标注等任务不同,聚类是在事先并不知道任何样本标签的情况下,通过数据之间的内在关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低(即增大类内聚,减少类间距)。    

    聚类属于非监督学习,K均值聚类是最基础常用的聚类算法。它的基本思想是,通过迭代寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的损失函数最小。其中,损失函数可以定义为各个样本距离所属簇中心点的误差平方和。

其中 代表第i个样本, 是 所属的簇,  代表簇对应的中心点,M是样本总数。

相关概念:

    K值: 要得到的簇的个数。

    质心: 每个簇的均值向量。即向量各维取平均即可。

    距离量度: 常用欧几里得距离和余弦相似度(先标准化)。

    KMeans的主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。

    KMeans的核心目标是将给定的数据集划分成K个簇(K是超餐),并给出每个样本数据对应的中心点。具体步骤非常简单:

    (1)首先确定一个K值,即我们希望将数据集经过聚类得到k个集合。

    (2)从数据集中随机选择K个数据点作为质心。

    (3)对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到哪个质心所属的集合。

    (4)把所有数据归好集合后,一共有K个集合。然后重新计算每个集合的质心。

    (5)如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。

    (6)如果新质心和原质心距离变化很大,需要迭代3-5步骤。

KMeans最核心的部分是先固定中心点,调整每个样本所属的类别来减少J;再固定每个样本的类别,调整中心点继续减小J。两个过程交替循环,J单调递减直到极小值,中心点和样本划分的类别同时收敛。

KMeans的优点 :

 高效可伸缩,计算复杂度为O(NKt)接近于线性(N是数据量,K是聚类总数,t是迭代轮数)。

 收敛速度快,原理相对通俗易懂,可解释性强。

当结果簇是密集的,而簇与簇之间区别是明显时,他的效果较好。主要需要调参的参数仅仅是簇数K。

缺点 :

 受初始值和异常点影响,聚类结果可能不是全局最优而是局部最优。K-Means算法对初始选取的质心点是敏感的,不同的随机种子点得到的聚类结果完全不同,对结果影响很大。

 K是超参数,一般需要按经验选择。

 对噪音和异常点比较的敏感,用来检测异常值。

 只能发现球状的簇。在K-Means中,我们用单个点对cluster进行建模,这实际上假设各个cluster的数据是呈高维球型分布的,但是在生活中出现这种情况的概率并不算高。例如,每一个cluster是一个一个的长条状的,K-Means的则根本识别不出来这种类别( 这种情况可以用GMM )。实际上,K-Means是在做凸优化,因此处理不了非凸的分布。

根据以上特点,我们可以从下面几个角度对算法做调优。

(1)数据预处理:归一化和异常点过滤

    KMeans本质是一种基于欧式距离度量的数据划分方法,均值和方差大的维度将对数据的聚类结果产生决定性影响 。所以在聚类前对数据( 具体的说是每一个维度的特征 )做归一化和单位统一至关重要。此外,异常值会对均值计算产生较大影响,导致 中心偏移 ,这些噪声点最好能提前过滤。

(2)合理选择K值

    K值的选择一般基于实验和多次实验结果。例如采用 手肘法 ,尝试不同K值并将对应的损失函数画成折线。手肘法认为图上的 拐点就是K的最佳值 (k=3)。

为了将寻找最佳K值的过程自动化,研究人员提出了Gap Statistic方法。不需要人们用肉眼判断,只需要找到最大的Gap Statistic对应的K即可。

       损失函数记为  ,当分为K类时,Gap Statistic定义为:  。 是 的期望 ,一般由蒙特卡洛模拟产生。我们在样本所在的区域内按照均匀分布随机地产生和原始样本数一样多的随机样本,并对这个随机样本做KMeans,得到一个 ,重复多次就可以计算出 的近似值。

       的物理含义是随机样本的损失与实际样本的损失之差。Gap越大说明聚类的效果越好 。一种极端情况是,随着K的变化 几乎维持一条直线保持不变。说明这些样本间没有明显的类别关系,数据分布几乎和均匀分布一致,近似随机。此时做聚类没有意义。

(3)改进初始值的选择

    之前我们采用随机选择K个中心的做法,可能导致不同的中心点距离很近,就需要更多的迭代次数才能收敛。如果在选择初始中心点时能 让不同的中心尽可能远离 ,效果往往更好。这类算法中,以K-Means++算法最具影响力。

(4)采用核函数

    主要思想是通过一个非线性映射,将输入空间中的数据点映射到高维的特征空间中,并在新的空间进行聚类。非线性映射增加了数据点线性可分的概率(与SVM中使用核函数思想类似)对于非凸的数据分布可以达到更为准确的聚类结果。

 (1)初始的K个质心怎么选?

    最常用的方法是随机选,初始质心的选取对最终聚类结果有影响,因此算法一定要多执行几次,哪个结果更合理,就用哪个结果。当然也有一些优化的方法,第一种是选择彼此距离最远的点,具体来说就是先选第一个点,然后选离第一个点最远的当第二个点,然后选第三个点,第三个点到第一、第二两点的距离之和最小,以此类推。第二种是先根据其他聚类算法(如层次聚类)得到聚类结果,从结果中每个分类选一个点

(2)关于离群值?

    离群值就是远离整体的,非常异常、非常特殊的数据点,在聚类之前应该将这些"极大""极小"之类的离群数据都去掉,否则会对于聚类的结果有影响。但是,离散值往往自身就很有分析的价值,可以把离群值单独作为一类来分析。

(3)单位要一致!

(4)标准化

    数据中X整体都比较小,比如都是1到10之间的数,Y很大,比如都是1000以上的数,那么在计算距离的时候Y起到的作用就比X大很多,X对于距离的影响几乎可以忽略,这也有问题。因此,如果K-Means聚类中选择欧几里得距离计算距离,数据集又出现了上面所述的情况,就一定要进行数据的标准化(normalization),即将数据按比例缩放,使之落入一个小的特定区间。

    K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出 。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的K个点,用这最近的K个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到K个类别的最佳质心,从而决定样本的簇类别。当然,两者也有一些相似点,两个算法都包含一个过程,即找出和某一个点最近的点。 两周都利用了最近邻的思想 。

算法笔记:Kmeans聚类算法简介

1. Kmeans算法简介

Kmeans算是非常经典的一个聚类算法了,早已经被写到教科书里面了,不过很不幸的是,最近干活遇到了这个,然后我发现我已经忘得差不多一干二净了……

所以这里就过来挖个坟,考个古,把这玩意拉出来复习一下。

如前所述,Kmeans算法是一个聚类算法,具体来说,我们输入一个包含 N N N个点的点集,我们的目的是要将这 N N N个点分为 K K K个簇,使得每个点到各自的簇的中心距离之和最小。

用公式来表达的话就是:

s = ∑ i = 1 N m i n j ∈ 1 , . . . , K ( d ( x i , u j ) ) s = \\sum_i=1^N \\mathopmin\\limits_j \\in \\1, ..., K\\(d(x_i, u_j)) s=i=1Nj1,...,Kmin(d(xi,uj))

要找到一组 u j u_j uj使得 s s s最大。

其中, d ( x , y ) d(x, y) d(x,y)表示 x , y x,y x,y两点间的距离,一般我们在这里使用欧氏距离。

2. Kmeans算法细节

Kmeans算法的核心思路是迭代。

首先,我们随机从 N N N个点当中选出 K K K个点作为簇的中心点。

然后,根据全部的 N N N个点到这 K K K个中心点之间的距离,我们就可以将这全部的 N N N个点进行分类,分配到这 K K K个簇当中。

而后,我们更新这 K K K个簇的中心,具体来说,我们取这 K K K个点的均值点作为这 K K K个簇的新的中心。

我们不断地重复上述两个步骤,直到达到迭代上限或者簇的中心点不再发生变化即可。

具体的,我们可以给出上述Kmeans算法的算法整理如下:

  1. step 1: 从 N N N个给定点当中随机 K K K个点作为 K K K个簇的中心点;
  2. step 2: 计算每一个点到这 K K K个簇的中心点之间的欧式距离,将其分配到最小的那个簇当中,从而对所有的点进行聚类;
  3. step 3: 对于2中得到的每一个簇,更新其中心点为所有点的均值,即 u = ∑ i x i n \\boldu = \\frac\\sum_i \\boldx_in u=nixi
  4. step 4: 重复上述2-3两步,直到迭代次数达到上限或者簇的中心不再发生变化。

而Kmeans的算法的优缺点因此也就比较明显:

  1. 优点
    • 易实现,易debug
  2. 缺点
    • 迭代非常耗时,对于大数据量尤其明显;
    • 较依赖于初始化中心的选择,不同初始化中心点的选择会带来较大的结果差异;

3. Kmeans算法收敛性证明

现在,给出了kmeans聚类算法之后,我们来考察一下kmeans算法的收敛性,也就是说,为什么kmeans算法的迭代是有效的。

我们使用原始的kmeans算法进行说明,即是说,使用欧式距离来对两点间的距离进行描述,此时,前述提到的loss函数就可以表达为:

s = ∑ i = 1 N m i n j ∈ 1 , . . . , K ∣ ∣ x i , u j ∣ ∣ s = \\sum_i=1^N \\mathopmin\\limits_j \\in \\1, ..., K\\ ||x_i, u_j|| s=i=1Nj1,...,Kmin∣∣xi,uj∣∣

具体到第 k k k次迭代上,即有:

s k = ∑ i = 1 N m i n j ∣ ∣ x i , u j k ∣ ∣ s^k = \\sum_i=1^N \\mathopmin\\limits_j ||x_i, u_j^k|| sk=i=1Njmin∣∣xi,ujk∣∣

显然, s k s^k sk是一个大于0的数列,因此,我们只需要证明 s k s^k sk递减,那么数列 s k s^k sk必然收敛。

因此,我们只需要证明 s k + 1 ≤ s k s^k+1 \\leq s^k sk+1sk即可。

我们考察第 k k k次迭代,它分为两步:

  1. 对于上一次分类完成的簇,更新簇的中心从 u k u^k uk u k + 1 u^k+1 uk+1
    s k + 1 ′ = ∑ i = 1 N ∣ ∣ x i , u j k + 1 ∣ ∣ s^k+1' = \\sum_i=1^N ||x_i, u_j^k+1|| sk+1=i=1N∣∣xi,ujk+1∣∣
  2. 使用新的簇中心 u k + 1 u^k+1 uk+1对所有的点进行更新;
    s k + 1 = ∑ i = 1 N m i n j ∣ ∣ x i , u j k + 1 ∣ ∣ s^k+1 = \\sum_i=1^N \\mathopmin\\limits_j ||x_i, u_j^k+1|| sk+1=i=1Njmin∣∣xi,ujk+1∣∣

其中,对于步骤二,显然有 s k + 1 ≤ s k + 1 ′ s^k+1 \\leq s^k+1' sk+1sk+1。因此,我们只要说明步骤一当中的聚类中心变换之后获得的新的 s k + 1 ′ s^k+1' sk+1小于等于 s k s^k sk即可。

而在这步骤一当中,由于簇的成员都没有发生改变,因此,我们要证明的问题也就是: