全局多标签性能评估的平均精度/召回率是不是正确?

Posted

技术标签:

【中文标题】全局多标签性能评估的平均精度/召回率是不是正确?【英文标题】:Is it correct to average Precision/Recall for global multilabel performance evaluation?全局多标签性能评估的平均精度/召回率是否正确? 【发布时间】:2013-12-31 15:50:57 【问题描述】:

让我们谈谈标签 A、B 和 C 的多标签分类问题。我可以计算每个标签的准确率/召回率,如下所示:

精度:正确的 NodeX 分配/总 NodeX 分配 回忆:正确的 NodeX 分配/NodeX 真实出现次数 F1 测量:2 *(精度 * 召回)/(精度 + 召回)

由于我有 3 个标签,我想通过平均每个节点的值来获得全局性能度量,如建议的 here。

但是,我注意到这破坏了 F1 测量不变量!一个澄清的例子:

Label, Precision, Recall, F1
A,     0.5,       1.0,    0.666 
B,     1.0,       1.0,    1.0
C,     0.5,       0.5,    0.5
AVG,   0.666,     0.833,  0.611

NOTE: (2 * (0.666 * 0.833) / (0.666 + 0.833)) != 0.611

尝试为多标签分类性能测量提出基于全局节点的指标是否正确?有更好的方法吗?

注意:我知道其他性能指标(准确性、ROC/AUC 等),但我也想解决这个问题。

【问题讨论】:

我认为这可能更适合Theoretical Computer Science 或者交叉验证:stats.stackexchange.com 【参考方案1】:

F1 平均值假设准确率和召回率的权重相等。但这在现实中是不真实的。使用平均精度和召回率来计算 F1 分数更有意义,因为这将更好地反映您对精度或召回率的偏好。查看此article 了解更多详情。

【讨论】:

以上是关于全局多标签性能评估的平均精度/召回率是不是正确?的主要内容,如果未能解决你的问题,请参考以下文章

计算召回率和精度以评估 CBIR 系统

有关平均精度AP 和精确度-召回率曲线PR AUC的疑惑

模型评估:精确率召回率准确率

衡量机器学习模型的三大指标:准确率精度和召回率。

29、评估多分类问题--混淆矩阵和F分数

map在夜间下降率是啥意思