微观指标与宏观指标
Posted
技术标签:
【中文标题】微观指标与宏观指标【英文标题】:Micro metrics vs macro metrics 【发布时间】:2021-10-12 22:38:39 【问题描述】:为了测试我的多标签分类模型的结果,我测量了 Precision、Recall 和 F1 分数。我想比较两个不同的结果,微观和宏观。我有一个只有几行的数据集,但我的标签数大约是 1700。为什么即使我在微观上得到很高的结果,宏也这么低,当它是一个多类时,哪个更有用?
Accuracy: 0.743999
Micro Precision: 0.743999
Macro Precision: 0.256570
Micro Recall: 0.743999
Macro Recall: 0.264402
Micro F1 score: 0.743999
Macro F1 score: 0.250033
Cohens kappa: 0.739876
【问题讨论】:
您是否注意到您的准确度得分和微观平均值都相同?参考When do micro- and macro-averages differ a lot? 在这种情况下也有用的可能是这个答案here。 【参考方案1】:微平均
微平均精度和召回分数是根据模型的各个类别的真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 计算得出的。
宏观平均
宏观平均准确率和召回率分数计算为各个类别的准确率和召回率分数的算术平均值。宏观平均 F1-score 计算为各个类 F1-score 的算术平均值。
When to use micro-averaging and macro-averaging scores?
当需要平等地权衡每个实例或预测时,使用微平均分数。
当需要平等对待所有类时,使用macro-averaging分数来评估分类器在最常见的类标签方面的整体性能。
在类别不平衡的情况下使用加权宏观平均分数(不同的实例与不同的类别标签相关)。 weighted macro-average是在计算平均值时,通过真实实例的数量对每个类标签的得分进行加权计算得出的。
如果您想了解系统在各组数据中的整体表现如何,可以使用宏观平均方法。你不应该用这个平均值做出任何具体的决定。另一方面,当您的数据集大小不同时,微平均值可能是一种有用的衡量标准。
多类分类的微观平均和宏观平均精度分数
对于多类分类问题,微平均精度分数可以定义为所有类的真阳性总和除以所有阳性预测。阳性预测是所有真阳性和假阳性的总和。
多类分类的微观平均和宏观平均召回分数
对于多类分类问题,微平均召回分数可以定义为所有类的真阳性总和除以实际阳性(而不是预测阳性)。
参考资料:
Micro- and Macro-average of Precision, Recall and F-Score Macro VS Micro VS Weighted VS Samples F1 Score Micro Average vs Macro average Performance in a Multiclass classification setting【讨论】:
以上是关于微观指标与宏观指标的主要内容,如果未能解决你的问题,请参考以下文章