在 k-means 聚类中最小化损失函数意味着啥?

Posted

技术标签:

【中文标题】在 k-means 聚类中最小化损失函数意味着啥?【英文标题】:What does minimising the loss function mean in k-means clustering?在 k-means 聚类中最小化损失函数意味着什么? 【发布时间】:2021-01-04 20:52:06 【问题描述】:

我正在学习 k-means 聚类算法,并且我读到该算法是“尝试最小化不满足聚类目标的损失函数”。

我了解算法的基本概念,它在第一次迭代中初始化任意质心/均值,然后将数据点分配给这些集群。在点全部分配后更新质心,并再次重新分配点。该算法继续迭代,直到集群不再改变。该算法试图最小化集群内平方和 (WCSS) 值,该值是集群内方差的度量。

但是,在此算法的上下文中,我无法理解损失函数的含义。任何见解都值得赞赏。

【问题讨论】:

【参考方案1】:

在更广泛的机器学习环境中,loss function(有时称为成本函数)是一个指示特定答案有多“糟糕”的函数。然后,最小化损失函数对应于找到问题的“最佳”答案。

(考虑“损失最少的金额”可能会很奇怪,在这种情况下,将其视为成本函数可能更容易。目标是找到问题的最低成本解决方案。)

【讨论】:

是的,但是如果成本函数很高,我们需要做什么?使用其他算法或选择其他特征进行训练或做什么?我也很感兴趣,因为我也是新手。 :)

以上是关于在 k-means 聚类中最小化损失函数意味着啥?的主要内容,如果未能解决你的问题,请参考以下文章

改变k-means聚类中迭代的最大值有啥影响?

k-means聚类算法python实现,导入的数据集有啥要求

数据建模()-K-means聚类算法

Kmeans算法原理

您使用啥方法来选择 k-means 和 EM 中的最佳聚类数?

聚类之K均值聚类和EM算法