EM算法和K-Means算法

Posted 2023-05-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了EM算法和K-Means算法相关的知识，希望对你有一定的参考价值。

参考技术A 在实际工作中，会遇到这样的问题，给机器输入大量的特征数据，并希望机器希望学习找到某种共同的特征或者结构，亦或是数据之间存在的某种关联，例如，视频网站根据用户的观看行为进行分组，从而建立不同的推荐策略，或是找到视频是否流畅与用户是否退订之间的关系等。属于无监督学习算法。

包括两大类，一：数据聚类，此类方案往往是通过数次迭代找到数据的最优分割。二：特征变量的关联规则，此类方法利用各种相关性分析找到变量之间的关系。

Kmeans的核心是将给定的数据集划分成K个簇，并给出每个数据对应的中心点。算法具体步骤如下：

1：数据预处理，如归一化、离散点处理等

2：随机选取K个簇中心，记为。

3：定义代价函数：。

4：令为迭代步数，重复下面过程直到收敛

4.1 对于每一个样本将其分到距离最近的簇

4.2 对于每一个类簇k，重新计算类簇的中心

K均值在迭代时，交替方向法求解，假设当前没有达到最小值，那么首先固定簇中心 ,调整样本所属的类别来让函数减小，然后再固定 ,调整中心使减小，这两个过程交替循环，单调递减，当递减到最小时，和同时收敛。

缺点：

1：受初始值的影响

2：异常值的影响

3：当簇分布相差很大时，不适合

优点：

大数据集，均值聚类相对是可伸缩和高效的，计算复杂度 ,其中是数据对象的数目，是聚类簇数，是迭代的轮数。尽管算法经常局部最优结束，一般情况下局部最优已经满足要求

调优方向

1：数据归一化和离散点处理

2：合理选择值

一：手肘法：选择若干个K画均方误差的折线图肉眼查看拐点二：Gap Statistic方法的基本思路是：引入参考的测度值，其可以通过Monte Carlo采样的方法获得。

3：采用核函数

利用kmeans假设各个数据簇的数据具有一样的先验概率，并呈现高纬球形分布，但是实际生活中是不常见的。面对非凸的数据分布时，引入核函数来优化。核心：利用非线性核函数将样本映射到高纬空间，并在新的特征空间中进行聚类。非线性映射增加了数据的线性可分的概率。

针对对初始值敏感的改进

K-means++算法：

起步

由于 K-means 算法的分类结果会受到初始点的选取而有所区别，因此有提出这种算法的改进: K-means++ 。

算法步骤

其实这个算法也只是对初始点的选择有改进而已，其他步骤都一样。初始质心选取的基本思路就是，初始的聚类中心之间的相互距离要尽可能的远。

算法描述如下：

步骤一：随机选取一个样本作为第一个聚类中心；

步骤二：

计算每个样本与当前已有类聚中心最短距离（即与最近一个聚类中心的距离）这个值越大，表示被选取作为聚类中心的概率较大；

最后，用轮盘法选出下一个聚类中心；

步骤三：重复步骤二，知道选出 k 个聚类中心。

选出初始点后，就继续使用标准的 k-means 算法了。

ISODATA的聚类个数是可变的，因为在聚类的过程中，对类别数有一个“合并”和“分裂”的操作。合并是当聚类结果某一类中样本数太少，或两个类间的距离太近时，将这两个类别合并成一个类别；分裂是当聚类结果中某一类的类内方差太大，将该类进行分裂，分裂成两个类别。

ISODATA分类的过程和K-Means一样，用的也是迭代的思想：先随意给定初始的类别中心，然后做聚类，通过迭代，不断调整这些类别中心，直到得到最好的聚类中心为止。

注：

初始簇个数，最终簇大小范围

分裂和合并的标准

每个簇的样本数最小，小于这个值不进行分裂

每个簇样本的最大方差，大于这个则进行分裂

两个簇之间的最小距离围，小于这个则进行合并

EM算法是一种迭代算法，用于含有隐变量的概率模型的极大似然估计，或者说是极大后验概率估计。

算法步骤

输入：观测变量数据Y，隐变量Z，联合分布，条件分布

输出：模型参数

1：选择参数的初始值

2：E步：记为第次迭代参数的估计值，在第次迭代的E步，计算函数，其中，是再帮给定Y和下隐变量数据Z的条件概率分布；

3：M步：求使极大化的，确定第次迭代的参数的估计值 ,

4：重复2，3步，直到收敛

EM算法推导

通过不断求解下界的极大化逼近求解对数似然函数的极大化的算法

含有隐变量的概率模型的极大似然估计

下面证明

利用Jensen不等式

令

则即函数增大，也可以使得有尽可能的增大，选择使得达到极大，即现在求的表达式 = = = =

假设有m个观察样本，模型的参数，最大化对数似然函数可以写成如下的形式

当概率模型含有无法观测的隐变量时，参数的最大似然估计

因为含有不可观测的隐变量，无法通过极大似然估计求解参数，这时可以通过EM算法求解。假设对应的分布，并满足。利用Jensen不等式，可以得到，

。不等式右侧，即为。当等式成立时，我们相当于优化的函数找到了一个逼近的下界，然后最大化这个下界

EM算法和k-means关系

1：E步骤

2：M步骤：最大化

K均值算法等价于以下隐变量求最大似然问题

相当于E步找到x当前最近的簇

在M步骤来更新簇中心

#####引用葫芦书和李航机器学习

您使用啥方法来选择 k-means 和 EM 中的最佳聚类数？

【中文标题】您使用啥方法来选择 k-means 和 EM 中的最佳聚类数？【英文标题】：What method do you use for selecting the optimum number of clusters in k-means and EM?您使用什么方法来选择 k-means 和 EM 中的最佳聚类数？ 【发布时间】：2011-01-19 18:04:24 【问题描述】：

可以使用许多聚类算法。一种流行的算法是 K-means，其中基于给定数量的集群，该算法迭代以找到对象的最佳集群。

在k-means聚类中，你用什么方法来确定数据中的簇数？

R 中是否有任何可用的包包含V-fold cross-validation 方法来确定正确的集群数量？

另一种常用的方法是期望最大化 (EM) 算法，它为每个实例分配一个概率分布，表明它属于每个集群的概率。

这个算法是在 R 中实现的吗？

如果是，是否有通过交叉验证自动选择最佳聚类数的选项？

您更喜欢其他聚类方法吗？

【问题讨论】：

我故意省略了层次聚类，因为 hclust 是一种相当消耗内存的方法，不适合我实际上最感兴趣的大型数据集。请定义您所说的“最佳”是什么意思好问题@Svante，我一直在思考这个问题。我什至打算编写一个包含多种算法的程序包，以优化集群数量（仅限 hclust 方法）。 @hadley，我熟悉：C-H 指数（Calinsky & Harabasz）、C-index、Goodman-Kruskal 伽马系数。并且有一种方法可以通过利用 F 检验来“选择最佳集群解决方案”。这是一个参考：米利根，G.W.和库珀，M.C. （1985 年）。 An Examining of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, 50, 159-179 @hadley，在最大化某些得分函数的意义上，可能有 between class distance 和 within class distance 作为参数。例如，参见Optimal Number of Clusters 段中描述的方法：sandro.saitta.googlepages.com/… 这也可能派上用场：stats.stackexchange.com/questions/723/… 【参考方案1】：

对于大型“稀疏”数据集，我会认真推荐“亲和传播”方法。与 k 均值相比，它具有更优越的性能，并且具有确定性。

http://www.psi.toronto.edu/affinitypropagation/ 它发表在《科学》杂志上。

但是，最佳聚类算法的选择取决于所考虑的数据集。 K 均值是一种教科书方法，很可能有人已经开发出更好的算法，更适合您的数据集类型/

这是 Andrew Moore 教授（CMU，Google）关于 K 均值和层次聚类的一个很好的教程。 http://www.autonlab.org/tutorials/kmeans.html

【讨论】：

【参考方案2】：

上周，我为 K-Means 聚类程序编写了一个估计聚类数的算法。我使用了中概述的方法：

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf

我最大的实施问题是我必须找到一个合适的集群验证索引（即错误度量），它可以工作。现在是处理速度的问题，但目前的结果看起来还算合理。

【讨论】：

以上是关于EM算法和K-Means算法的主要内容，如果未能解决你的问题，请参考以下文章