良好的霍普金斯分数,但聚类质量差
Posted
技术标签:
【中文标题】良好的霍普金斯分数,但聚类质量差【英文标题】:Good Hopkins score but poor clustering quality 【发布时间】:2021-04-30 04:31:20 【问题描述】:在执行聚类之前,我使用 pyclustertend 的 Hopkins 分数来了解聚类形成的可能性。结果为 0.049,表明数据适合聚类。
然而,在聚类之后,通过轮廓分数评估的聚类质量并不令人印象深刻 (0.37)。
据我了解,这似乎很矛盾。如果 hopkins 分数低,我会期待更高的剪影分数。
我是不是误会了?这是否暗示聚类过程出现问题?
谢谢!
【问题讨论】:
【参考方案1】:我之前没有使用过该模块,所以这可能不完全正确。
较低的 hopkins 分数表示良好的潜在聚类,理论上,也应该给出更高的轮廓分数。不得不进行一些挖掘,但显然,轮廓分数衡量的是一个对象与其自己的集群与其他对象的相似程度。
我怀疑基于明显矛盾的信息可能是集群数量的结果。可能是某些对象靠近多个集群。尝试更改集群的数量。看看这如何改变这些物体的轮廓分数。或者查看大多数其他对象的轮廓分数。
【讨论】:
您好,谢谢您的回答!作为聚类的标准,我运行了一系列潜在的 k 值,并根据肘法选择了最佳值。最初,这是三个。当我再次尝试使用 2 时,轮廓值急剧上升。但是,如果两个集群真的优于三个集群,那么根据肘部方法这也有点矛盾...... 别担心!我想它们都是集群有多好的不同证据。对于它的价值,肘部方法是一种启发式的方法,所以它们并不完全一致是可以的。出于好奇,肘部图是什么样的? 我好像无法发布图片作为评论。但我对自己的肘部阅读能力相当有信心,在这种情况下肯定能区分 2 和 3;与 3 相比,2 的成本要高得多,在 3 和 4 之间有一个相当明显的平台以上是关于良好的霍普金斯分数,但聚类质量差的主要内容,如果未能解决你的问题,请参考以下文章