分类评价指标 F值 详解 | Micro F1 & Macro F1 & Weight F1

Posted LolitaAnn

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分类评价指标 F值 详解 | Micro F1 & Macro F1 & Weight F1相关的知识,希望对你有一定的参考价值。

之前写一个作业样本不均衡问题。然后查了很多文章都说要更换评价指标,不能再使用准确率了,要计算F值。我看了一下F值怎么计算,看了挺多文章的,但是感觉说的比较迷惑,或者说法比较拗口。最后还是自己再总结一个。

查准率、查全率、F值

我们平时对于一个模型预测的准不准,我们最先想到的是用准确率(Accuracy)进行评价。

$$
A = \\fractruetotal
$$

这个虽然常用,但不能满足所有任务的需求。

所以我们可以引入查准率查全率

  • 查准率(Precision):某一分类你预测对了多少个。

    $P = \\frac预测对的某一类你预测的某一类$

  • 查全率(Recall):某一分类你预测出来多少个。

    $R = \\frac预测对的某一类样本中的某一类$

举个例子:

计算○的:

$P_○ = \\frac23$

$R_○ = \\frac32$

查准率和查全率二者不可得兼。大概是下图这样的图像。不信你可以自己算一下。对于不同的实验曲线的形状可能略有不同。

精确率高,意味着分类器要尽量在 “更有把握” 的情况下才将样本预测为正样本, 这意味着精确率能够很好的体现模型对于负样本的区分能力,精确率越高,则模型对负样本区分能力越强。

召回率高,意味着分类器尽可能将有可能为正样本的样本预测为正样本,这意味着召回率能够很好的体现模型对于正样本的区分能力,召回率越高,则模型对正样本的区分能力越强。

从上面的分析可以看出,精确率与召回率是此消彼长的关系, 如果分类器只把可能性大的样本预测为正样本,那么会漏掉很多可能性相对不大但依旧满足的正样本,从而导致召回率降低。

F值是二者的综合:
$$
F(k) =\\frac ( 1 + k ) \\times P \\times R k^2 \\times P + R ,\\quad 其中k>0
$$

其中$k$可以看做一个权值对待:

  • $k>1$就是查全率有更大影响,
  • $k<1$查准率有更大影响。

而我们常用的是$F1$值,$F(1)$的意思,$k=1$,此时

$$
F(1) = \\frac 2 \\times P \\times R P + R
$$

对于上边的例子F1值就是:$F1_○ = \\frac2\\times \\frac23 \\times \\frac32 \\frac23 + \\frac32$

对于二分类问题

道理就是我上边说的那一段,但是常规大家介绍的时候都喜欢写什么TP TN之类的字母表示,看得我头晕。所以如果上边例子看懂了的话,可以直接跳过二分类,看多分类就可以了。

二分类呢就是我上面举的那个例子。别人写F值的计算一般都喜欢用一个混淆矩阵来表示。

我们需要建立以下几个量的混淆矩阵:

  • 真正例(True Positive,TP):预测类别为正例,实际是正例,预测对了目标样本
  • 假正例(False Positive,FP):预测类别为正例,实际是负例,预测是目标,但预测错了
  • 假负例(False Negative,FN):预测类别为负例,实际是正例,没预测出来的目标样本
  • 真负例(True Negative,TN):预测类别为负例,实际是负例,。

还是上面那个例子,我们讲说圆圈是正例,方块是负例。现在就可以转化成下图这样。

字母真的很让人迷惑!!!所以我搞了文字版。TN那里灰色的,因为计算F值不需要那一项。

此时:

  • 准确率: $A = \\fracT P+T N\\text TP+FP+FN+TN $

  • 精确率:$P=\\fracT PT P+F P$
  • 召回率:$R=\\fracT PT P+F N$
  • F1值: $F 1=\\frac2 \\times P \\times RP+R$

多分类

为什么我说可以不看二分类那一段,因为那一段真的四个字母表示特别容易让人迷惑。并且它跟多分类也衔接不上。因为在多分类里强行用简单的正例负例来说真的是很怪异。

不需要你再翻回去了,我直接把那个内容搬下来了。

  • 查准率(Precision):某一分类你预测对了多少个。

    $P = \\frac预测对的某一类你预测的某一类$

  • 查全率(Recall):某一分类你预测出来多少个。

    $R = \\frac预测对的某一类样本中的某一类$

上边提到的F值是关于二分类。多分类的时候就需要用到宏F值(F-macro)和微F值(F-micro)。

  • 宏F值

    方法一: 求取每一类的F值之后求平均值。

    $FMacro = \\frac1n\\sumi-1^n F1^(i)$

    方法二: 还有一种说法是先分别计算查准率和查全率,再进行平均,使用平均的查准率查全率计算宏F值。

    $FMacro = \\frac k \\times Pave \\times Rave k^2 \\times Pave + R_ave$

  • 微F值:这样每一类的预测结果都加起来之后再计算查准率、查全率、F值。

    $FMicro = \\frac k \\times Psum \\times Rsum k^2 \\times Psum + R_sum$

注意: 关于宏F1两种计算方法最终结果是不一样的。

在Scikit-learn(以前称为scikits.learn,也称为sklearn)的包中,使用的是第一种方式。

两种方式的使用争议一直存在。

不过在“Training algorithms for linear text classifiers”^[Lewis, David D., et al. “Training algorithms for linear text classifiers.” SIGIR. Vol. 96. 1996. 243199.243277 (acm.org)]中,作者指出,macro-F1是所有类中F1-score的平均值,即第一种方式才是macro-F1的计算方式。论文Macro F1 and Macro F1^[[1911.03347v2] Macro F1 and Macro F1 (arxiv.org)]对两种macro的方法进行简单分析,第二种方式对错误的分布不太敏感,这一点有点像micro-F1,论文作者也推荐方法一。

计算

我们还是计算F1为例:

TP 预测对○ FP 预测是○,但是预测错了 FN 没预测出来的○
2 1 1
TP 预测对□ FP 预测是□,但是预测错了 FN 没预测出来的□
4 0 1
TP 预测对△ FP 预测是△,但是预测错了 FN 没预测出来的△
2 1 0

我是手算的,如果你算的结果和我不一样,可能是我算错了。

微F1:

总和:

TP 预测对 FP 预测,但是预测错了 FN 没预测出来的
8 2 2

$$
\\beginaligned
&Psum = \\frac88+2 = \\frac 4 5\\ \\
&R
sum = \\frac88+2 = \\frac 4 5\\ \\
&FMicro = \\frac 2 \\times Psum \\times Rsum Psum + R_sum = \\frac 2 \\times \\frac 4 5 \\times \\frac 4 5 \\frac 4 5 + \\frac 4 5 = \\frac 2 5
\\endaligned
$$

宏F1:

  • 计算方法1

$$
\\beginaligned
&P○=\\frac22+1 = \\frac23 &R○=\\frac22+1 = \\frac23 \\quad &F1○=\\frac2 \\times P ○\\times R○P○+R○ = \\frac23 \\ \\
& P
□=\\frac44+0 = 1 &R□=\\frac44+1 = \\frac45 \\quad & F1□=\\frac2 \\times P□ \\times R□P□+R□ = \\frac89 \\ \\
&P△=\\frac22+1 = \\frac23 &R△=\\frac22+0 = 1 \\quad &F1△=\\frac2 \\times P△ \\times R△P△+R△ = \\frac45
\\endaligned
$$
$$
F1
macro = \\fracF1○+F1□+F1_△3 = \\frac106135
$$

  • 计算方法2

$$
\\beginaligned
&P○=\\frac22+1 = \\frac23 &R○=\\frac22+1 = \\frac23 \\quad\\ \\
& P□=\\frac44+0 = 1 &R□=\\frac44+1 = \\frac45 \\quad \\ \\
&P△=\\frac22+1 = \\frac23 &R△=\\frac22+0 = 1 \\quad
\\endaligned
$$

$$
\\beginaligned
&Pave=P○+P□+P△=\\frac 7 9 \\ \\ &Rave=R○+R□+R△=\\frac37 45 \\ \\
&F1macro = \\frac 2 \\times Pave \\times Rave Pave + R_ave = \\frac 2 \\times \\frac 7 9 \\times \\frac37 45 \\frac 7 9 +\\frac37 45 = \\frac 259324
\\endaligned
$$

如何选择Micro F1 & Macro F1

总的来说, 如果你的类别比较均衡,则随便;如果你认为大样本的类别应该占据更重要的位置, 使用Micro;如果你认为小样本也应该占据重要的位置,则使用 Macro;如果 Micro << Macro , 则意味着在大样本类别中出现了严重的分类错误;如果 Macro << Micro , 则意味着小样本类别中出现了严重的分类错误。

Weight F1

Weighted F值 是Macro 算法的改良版,顾名思义就是加权版本的F值计算。是为了解决Macro中没有考虑样本不均衡的问题。

既然是Macro F值计算的改良版,那肯定也是有两种计算方法:

  • 方法一:将各类别的F值乘以该类在总样本中的占比进行加权计算。

    $FWeighted = \\sumi-1^n w^(i)F^(i)$

  • 方法二:在计算查准率和查全率的时候,各个类别的查准率和查全率要乘以该类在总样本中的占比进行加权计算。

    $FWeighted = \\frac k \\times Pwei \\times Rwei k^2 \\times Pwei + R_wei$

    $Pwei=w○P○+w□P□+w△P_△$

    $Rwei=w○R○+w□R□+w△R_△$

我们还是计算F1为例:

TP 预测对 FP 预测是,但是预测错了 FN 没预测出来的 样本比例
2 1 1 30%
4 0 1 50%
8 2 2 20%
  • 计算方法1

$$
\\beginaligned
&P○=\\frac22+1 = \\frac23 &R○=\\frac22+1 = \\frac23 \\quad &F1○=\\frac2 \\times P ○\\times R○P○+R○ = \\frac23 \\ \\
& P
□=\\frac44+0 = 1 &R□=\\frac44+1 = \\frac45 \\quad & F1□=\\frac2 \\times P□ \\times R□P□+R□ = \\frac89 \\ \\
&P△=\\frac22+1 = \\frac23 &R△=\\frac22+0 = 1 \\quad &F1△=\\frac2 \\times P△ \\times R△P△+R_△ = \\frac45
\\endaligned
$$

$$
F1Weighted =w○F1○+w□F1□+w△F1_△= \\frac 2 3 \\times 30\\% + \\frac 8 9 \\times 50\\% + \\frac 4 5 \\times 20\\%= \\frac 181225
$$

  • 计算方法2

$$
\\beginaligned
&P○=\\frac22+1 = \\frac23 &R○=\\frac22+1 = \\frac23 \\quad\\ \\
& P□=\\frac44+0 = 1 &R□=\\frac44+1 = \\frac45 \\quad \\ \\
&P△=\\frac22+1 = \\frac23 &R△=\\frac22+0 = 1 \\quad
\\endaligned
$$

$$
\\beginaligned
&Pwei=w○P○+w□P□+w△P△ = \\frac 2 3 \\times 30\\% + 1 \\times 50\\% + \\frac 2 3 \\times 20\\%= \\frac 5 6\\ \\
&R
wei=w○R○+w□R□+w△R△ =\\frac 2 3 \\times 30\\% + \\frac 4 5\\times 50\\% + 1\\times 20\\%= \\frac 4 5 \\ \\
&F1Weighted = \\frac 2 \\times Pwei \\times Rwei Pwei + R_wei = \\frac 2 \\times \\frac 5 6 \\times \\frac 4 5 \\frac 5 6 + \\frac 4 5 = \\frac 4049
\\endaligned
$$

其他参考资料

^[Multi-Class Metrics Made Simple, Part I: Precision and Recall | by Boaz Shmueli | Towards Data Science]
^[Multi-Class Metrics Made Simple, Part II: the F1-score | by Boaz Shmueli | Towards Data Science]

以上是关于分类评价指标 F值 详解 | Micro F1 & Macro F1 & Weight F1的主要内容,如果未能解决你的问题,请参考以下文章

F1 score中的Micro和Macro的区别

多分类评价指标python代码

性能评价指标(Precision, Recall, F-score, MAP)

分类模型评估指标

用Scikit-learn实现分类指标评价

Python机器学习:6.6 不同的性能评价指标