剪影分数怎么可能是负数?

Posted

技术标签:

【中文标题】剪影分数怎么可能是负数?【英文标题】:How can silhouette scores be negative? 【发布时间】:2020-12-17 17:53:17 【问题描述】:

如果我们有一些数据点:

我们使用例如 k-means 进行分割;结果段不是每个点都最接近其各自集群的质心吗?如果是这样,当轮廓分数比较 ai(到簇内点的平均距离)与 bi(到簇外点的平均距离)时,怎么可能出现分数为负或 bi 小于 ai 的情况?

我可以看到,也许对于不同的分类算法,一些更复杂的算法可能会以不同的方式聚类,或者某些点分配不正确。但是这对于 k-means 是如何发生的呢?

【问题讨论】:

【参考方案1】:

点 i 到集群中的点的平均距离与其到该集群的质心的距离相同。 Silhouette score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配中使用后者,因此可能存在分歧。

例如,在下图中:假设蓝色点已分配给一个集群,而绿色点已分配给另一个集群。红点将分配到哪个集群?蓝色簇的质心在 (0, 1),绿色簇的质心在 (0, -1.15),因此红色点将分配给蓝色簇。但是,它到绿色点的平均距离是 1.15,而它到蓝色点的平均距离是 1.414,所以它会得到一个负的剪影分数。

【讨论】:

以上是关于剪影分数怎么可能是负数?的主要内容,如果未能解决你的问题,请参考以下文章

带有熊猫的剪影分数的正确数据格式

执行 scikit-learn 剪影分数时如何修复内存错误?

良好的霍普金斯分数,但聚类质量差

计算分数加减表达式的值

正则表达式 可以输入负数、正数、小数(小数保留一位)。

分数的乘法逆元和负数的取模运算