欧若纳解析机器学习之K-means 聚类算法原理及特征

Posted 2021-04-08 欧若纳Aurora

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了欧若纳解析机器学习之K-means 聚类算法原理及特征相关的知识，希望对你有一定的参考价值。

K-means算法理解

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-means算法计算方法

kmeans的计算方法如下：

1 随机选取k个中心点

2 遍历所有数据，将每个数据划分到最近的中心点中

3 计算每个聚类的平均值，并作为新的中心点

4 重复2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代

时间复杂度：O(I*n*k*m)

空间复杂度：O(n*m)

其中m为每个元素字段个数，n为数据量，I为跌打个数。一般I,k,m均可认为是常量，所以时间和空间复杂度可以简化为O(n)，即线性的。

K-means算法关键点

1）距离：两个样本之间的距离如何定义，是和业务场景紧密相关的。如果样本是二维平面上的点，两个点之间的距离可以定义为二维欧式距离（Euclidean distance），如果样本是天空中的繁星，两颗繁星之间的举例可以定义为三维欧式距离。

2）质心变换：定义了距离之后，初始化分类时，会把样本聚为最近质心那一类。初始化分类后，如何进行质心变换呢？一般使用距离方差法：将同一类中的所有样本都尝试着作为“假定质心”，计算此时该类中所有样本与“假定质心”距离的方差，将方差最小的“假定质心”设为该类的新质心。

K-means算法优缺点

K-Means聚类算法的优点主要集中在:

1.算法快速、简单;

2.对大数据集有较高的效率并且是可伸缩性的;

3.时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

k-means算法缺点

① 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。这也是 K-means 算法的一个不足。有的算法是通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。关于 K-means 算法中聚类数目K 值的确定在文献中，是根据方差分析理论，应用混合 F统计量来确定最佳分类数，并应用了模糊划分熵来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵的 RPCL 算法，并逐步删除那些只包含少量训练数据的类。而文献中使用的是一种称为次胜者受罚的竞争学习规则，来自动决定类的适当数目。它的思想是:对每个输入而言，不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。

② 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法(GA)进行初始化，以内部聚类准则作为评价指标。

③ 从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的侯选集。而在文献中，使用的 K-means 算法是对样本数据进行聚类，无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

素材来源于：模型算法百科、百度百科、互动百科、CSDN等等

以上是关于欧若纳解析机器学习之K-means 聚类算法原理及特征的主要内容，如果未能解决你的问题，请参考以下文章

欧若纳算法解析聚类算法分析--FCM算法原理及特征

技术视角机器学习之K-Means聚类算法详解

机器学习之经典聚类算法k-means在人脸识别的应用

机器学习之聚类算法——K-Means算法

机器学习之聚类算法（k-meansCanopy层次聚类谱聚类）

机器学习之K-means算法