多标签外部聚类评估指标的 NMI 和 B3 等效项
Posted
技术标签:
【中文标题】多标签外部聚类评估指标的 NMI 和 B3 等效项【英文标题】:Equivalent of NMI and B3 for multilabel extrinsic clustering evaluation metrics 【发布时间】:2020-07-04 12:30:39 【问题描述】:当每个实例(样本)只有一个标签时,归一化互信息 (NMI) 和 B3 用于外在聚类评估指标。
当每个实例(样本)只有一个标签时,什么是等效指标?
例如,在第一张图片中,我们看到 [apple, orange, pears],在第二张图片中,我们看到 [橙子,酸橙,柠檬],在第三张图片中,我们看到 [apple],在第四张图片中,我们看到见[橙色]。然后,如果将第一张和最后一张图像放在一个簇中,则为好,如果将第三张和第四张图像放在一个簇中,则为坏。
应用:许多用于对象检测或图像分割的流行数据集对每个图像都有多个标签。如果我们使用这些数据进行分类(不是检测也不是分割),我们会为每张图像提供多个标签。
注意:我的任务是无监督聚类,而不是监督分类。我知道对于监督分类,我们可以使用前 5 或前 10 的分数。但我不知道无监督聚类会是什么。
【问题讨论】:
【参考方案1】:如果多标签仍然稀疏,那么你可以使用以元素为中心的相似度、欧米茄索引或重叠 NMI(我不推荐最后一种,它有严重的偏差)。这三个都在python包中实现,CluSim。
如果多标签密集,那么您将进入fuzzy clustering 比较。隶属函数有几种发散度量,包括 L1 范数、欧几里得距离、KL 发散,但我不知道有文献争论一种方法优于另一种方法。
【讨论】:
以上是关于多标签外部聚类评估指标的 NMI 和 B3 等效项的主要内容,如果未能解决你的问题,请参考以下文章