聚类算法,k-means,高斯混合模型(GMM)

Posted 大数据技术与机器学习工程

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚类算法,k-means,高斯混合模型(GMM)相关的知识,希望对你有一定的参考价值。




目录

  • 1. 聚类算法都是无监督学习吗?

  • 2. k-means(k均值)算法

    • 2.1 算法过程

    • 2.2 损失函数

    • 2.3 k值的选择

    • 2.4 KNN与K-means区别?

    • 2.5 K-Means优缺点及改进

  • 3. 高斯混合模型(GMM)

    • 3.1 GMM的思想

    • 3.2 GMM与K-Means相比

  • 4. 聚类算法如何评估

  • 5. 代码实现

1. 聚类算法都是无监督学习吗?

什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。

常用的算法包括K-MEANS、高斯混合模型(Gaussian Mixed Model,GMM)、自组织映射神经网络(Self-Organizing Map,SOM)

2. k-means(k均值)算法

2.1 算法过程

K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。

K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: