数据聚类常见聚类算法的基本原理[图解]

Posted 2021-04-08 Laney的小仓库

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据聚类常见聚类算法的基本原理[图解]相关的知识，希望对你有一定的参考价值。

文章整理了五种常见聚类算法的基本原理，通过简易图解的形式对算法原理进行形象化的描述，同时给出了算法的实现流程和数学表达。全文约4192字。

相关名词的英文翻译

监督学习

Supervised Learning

无监督学习

Unsupervised Learning

半监督学习

Semi-Supervised Learning, SSL

强化学习

Reinforcement Learning, RL

聚类

Clustering

高斯混合模型

Gaussian Mixture Model, GMM

最大期望算法

Expectation-Maximization algorithm, EM

DBSCAN聚类算法

Density-Based Spatial Clustering of Applications with Noise

层次聚类

Hierarchical Clustering

学习向量量化

Learning Vector Quantization, LVQ

一、无监督学习与聚类

Learning家族

机器学习的一种常见划分方式如下

【监督学习】
训练数据有标签，使机器根据已有的示例进行学习，如分类和回归
【无监督学习】
训练数据无标签，机器根据数据性质自主进行学习，如聚类
【半监督学习】
训练时使用大量未标记数据及一部分标记数据，充分利用未标记样本来提升模型的泛化能力
【强化学习】
在学习过程中不断收到环境的反馈，最佳的行为由环境的正回报来强化，强化学习的典型代表为 AlphaGo

聚类任务

聚类任务是一种无监督学习，通过聚类将数据集中的样本划分为若干子集（“簇”），每个簇可能对应于一些潜在的概念和类别。之所以说是“潜在”，是因为聚类得到的划分结果是事先未知的，因此通过聚类任务，可以发掘数据内在的分布结构，探究数据样本之间的潜在联系。

二、K-Means算法

K-Means算法原理演示

现在有一个任务，把下面六个点分成两类：

数据聚类（一）常见聚类算法的基本原理[图解]

首先选择两个点作为初始中心（x1和x2）

数据聚类（一）常见聚类算法的基本原理[图解]

分别计算剩下的四个点到两个初始中心的距离，选择距离较近的一个初始中心，归为一类

数据聚类（一）常见聚类算法的基本原理[图解]

第1次迭代完成，六个样本被分成了两类{x1,x3,x5}（黄色）和{x2,x4,x6}（蓝色），然后对于划分好的两类，重新计算每一类的均值，如红色点1和2所示

数据聚类（一）常见聚类算法的基本原理[图解]

开始第2次迭代，计算每个样本点到两个新均值的距离，选择距离较近的一个中心归为一类

数据聚类（一）常见聚类算法的基本原理[图解]

第2次迭代结束之后，六个样本被重新分成了两类{x1,x3,x5,x6}（黄色）和{x2,x4 }（蓝色），重新计算每一类的均值，如红色点1和2所示。

数据聚类（一）常见聚类算法的基本原理[图解]

判断这次迭代得到的中心点与上次迭代的结果是否有更新，若有变动，则继续上述过程，计算每个样本点到两个中心的距离，生成新的簇划分，再计算新的簇中心……依次循环，直至各个簇的中心点不再更新，得到最终的聚类结果。

注：上述过程给出的距离划分结果仅用作演示说明算法的流程，并非严格按照背景方格纸的刻度进行计算得出。

0 2

算法实现流程

【输入】样本集和预设聚类个数k

【过程】

在样本集中随机选择k个样本作为每个簇初始的均值；
重复步骤3-5，直至每个簇的均值不再更新；
计算样本集中每个样本到各个簇均值向量的距离，将该样本划分到距离该样本最近的均值向量所对应的簇；
一次划分完成后重新计算每一簇的均值；
查看均值向量是否更新。

【输出】簇划分结果

0 3

K-means聚类过程演示

数据聚类（一）常见聚类算法的基本原理[图解]

0 4

K-Means算法的数学表达

给定样本集

数据聚类（一）常见聚类算法的基本原理[图解]

k均值算法针对聚类所得的簇划分最小化平方误差

其中

表示第i簇的均值向量。E在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，求解簇划分的过程即为最小化上述E值的过程。但直接求解E的最小值需要考察样本集D内所有可能的簇划分，这是一个NP难问题。因此在k均值算法的实际求解中，采用了贪心策略，通过迭代更新当前的簇划分及均值向量进行近似求解。

0 5

K-Means算法的变体：K-modes和K-prototype

K-Means是用每个聚类中的均值（mean）做中心点，K-Modes是用每个聚类中的众数（mode）做中心点。通常K-Means较多使用欧式距离，而K-Modes一般是汉明距离，也就是对于每个特征来说，如果不同记为1，相同则为0。

K-prototype则是K-means与K-modes的一种结合形式。

K-modes算法的适用情形：对于非数值集合上的聚类任务，我们通常会采用K-modes算法，将原本K-means使用的欧式距离替换成字符间的汉明距离。

K-prototype算法的适用情形：适用于数值类型与字符类型结合的数据。

三、高斯混合聚类算法

0 1

高斯混合聚类的基本思想

高斯混合聚类的过程比较抽象，它采用概率模型来表达聚类原型。高斯混合模型不仅考虑到了数据分布的均值，同时也考虑到了协方差。通常利用最大期望算法（ EM 算法）对高斯混合模型中的参数进行估计。 EM 算法的推导过程较为复杂，该过程的数学推导在后面单独作为一个篇幅来整理。

0 2

高斯混合聚类过程演示

在此给出算法复现的结果，直观地对混合高斯模型在聚类中的应用进行理解。图中实线是数据对应的真实的高斯分布，虚线是估计的高斯分布，从迭代过程可以看出，高斯分布的参数不断更新，最终估计出的高斯分布与实际值几乎完全重合。

数据聚类（一）常见聚类算法的基本原理[图解]

0 3

高斯混合聚类算法流程

【输入】样本集和高斯混合成分的个数

【过程】

模型参数初始化；
重复步骤3-4，直到对数似然函数不再有明显的变化，或者达到迭代次数上限；
E步：更新W及P，其中W是隐变量，即每个样本属于每一簇的后验概率，P为聚类每一簇所占的比重，即混合系数；
M步：更新高斯分布的均值和方差；
根据W的值得到每个样本对应的簇标记，完成簇划分。

【输出】簇划分

0 4

K-Means算法与高斯混合聚类算法的内在联系

K-Means算法可以看做是高斯混合聚类的一个特例，它的各混合成分方差相等，且每个样本仅指派一个混合成分。

同样可以使用EM算法对K-means算法进行推导：K-means中每个样本所属的类就可以看成是一个隐变量，在E步中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数；在M步，重新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类中样本的均值。

对高斯混合聚类过程的深入了解需要理解EM算法的原理，后面会对其数学推导另做整理。

四、DBSCAN算法

0 1

与DBSCAN算法相关的概念定义

理解DBSCAN算法首先要理解以下几个概念：

ε邻域：首先我们需要设定一个邻域参数ε（即下图中的 max_dis ），样本 x 的ε邻域包含了样本集中所有与该样本距离小于ε的样本。例如下图中的两个红色区域，分别表示样本x1和x3的ε邻域。
核心对象：我们需要设定一个 MinPts 参数，当样本 x 的ε邻域内样本数大于等于 MinPts 个时，我们将 x 称为一个核心对象。在下图中，假设MinPts=3，则我们可以将x1看做一个核心对象，其ε邻域内包含了三个样本{x1,x2,x5}
密度直达：假设有两个样本 xi 和 xj ，如果 xj 位于 xi 的ε邻域中，并且 xi 是核心对象，那么我们称 xj 由 xi 密度直达。在下图中，x2位于x1的ε邻域内，且x1是核心对象，所以我们可以说x2可由x1密度直达。
密度可达：对 xi 与 xj ，若存在样本序列 p1,p2,p3,...pn ，其中 p1=x1,pn=xj ，且 pi+1 由 pi 密度直达，则称 xi 与 xj 密度可达。在下图中，x2可由x1密度直达，x3可由x2密度直达，所以我们认为x1和x3是密度可达的。