良好的霍普金斯分数,但聚类质量差

Posted

技术标签:

【中文标题】良好的霍普金斯分数,但聚类质量差【英文标题】:Good Hopkins score but poor clustering quality 【发布时间】:2021-04-30 04:31:20 【问题描述】:

在执行聚类之前,我使用 pyclustertend 的 Hopkins 分数来了解聚类形成的可能性。结果为 0.049,表明数据适合聚类。

然而,在聚类之后,通过轮廓分数评估的聚类质量并不令人印象深刻 (0.37)。

据我了解,这似乎很矛盾。如果 hopkins 分数低,我会期待更高的剪影分数。

我是不是误会了?这是否暗示聚类过程出现问题?

谢谢!

【问题讨论】:

【参考方案1】:

我之前没有使用过该模块,所以这可能不完全正确。

较低的 hopkins 分数表示良好的潜在聚类,理论上,也应该给出更高的轮廓分数。不得不进行一些挖掘,但显然,轮廓分数衡量的是一个对象与其自己的集群与其他对象的相似程度。

我怀疑基于明显矛盾的信息可能是集群数量的结果。可能是某些对象靠近多个集群。尝试更改集群的数量。看看这如何改变这些物体的轮廓分数。或者查看大多数其他对象的轮廓分数。

【讨论】:

您好,谢谢您的回答!作为聚类的标准,我运行了一系列潜在的 k 值,并根据肘法选择了最佳值。最初,这是三个。当我再次尝试使用 2 时,轮廓值急剧上升。但是,如果两个集群真的优于三个集群,那么根据肘部方法这也有点矛盾...... 别担心!我想它们都是集群有多好的不同证据。对于它的价值,肘部方法是一种启发式的方法,所以它们并不完全一致是可以的。出于好奇,肘部图是什么样的? 我好像无法发布图片作为评论。但我对自己的肘部阅读能力相当有信心,在这种情况下肯定能区分 2 和 3;与 3 相比,2 的成本要高得多,在 3 和 4 之间有一个相当明显的平台

以上是关于良好的霍普金斯分数,但聚类质量差的主要内容,如果未能解决你的问题,请参考以下文章

如何从詹金斯管道中选择声纳质量门?

一种差分隐私K-means聚类算法的隐私预算分配方案

差分法详解

差分-微分-分数阶的简单入门体会

数据分析 第六篇:聚类的评估(簇数确定和轮廓系数)和可视化

重叠聚类的结果