剪影分数怎么可能是负数?
Posted
技术标签:
【中文标题】剪影分数怎么可能是负数?【英文标题】:How can silhouette scores be negative? 【发布时间】:2020-12-17 17:53:17 【问题描述】:如果我们有一些数据点:
我们使用例如 k-means 进行分割;结果段不是每个点都最接近其各自集群的质心吗?如果是这样,当轮廓分数比较 ai(到簇内点的平均距离)与 bi(到簇外点的平均距离)时,怎么可能出现分数为负或 bi 小于 ai 的情况?
我可以看到,也许对于不同的分类算法,一些更复杂的算法可能会以不同的方式聚类,或者某些点分配不正确。但是这对于 k-means 是如何发生的呢?
【问题讨论】:
【参考方案1】:点 i 到集群中的点的平均距离不与其到该集群的质心的距离相同。 Silhouette score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配中使用后者,因此可能存在分歧。
例如,在下图中:假设蓝色点已分配给一个集群,而绿色点已分配给另一个集群。红点将分配到哪个集群?蓝色簇的质心在 (0, 1),绿色簇的质心在 (0, -1.15),因此红色点将分配给蓝色簇。但是,它到绿色点的平均距离是 1.15,而它到蓝色点的平均距离是 1.414,所以它会得到一个负的剪影分数。
【讨论】:
以上是关于剪影分数怎么可能是负数?的主要内容,如果未能解决你的问题,请参考以下文章