『NLP学习笔记』Sklearn计算准确率精确率召回率及F1 Score

Posted 布衣小张

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了『NLP学习笔记』Sklearn计算准确率精确率召回率及F1 Score相关的知识,希望对你有一定的参考价值。

Sklearn计算准确率、精确率、召回率及F1 Score!

  • 分类是机器学习中比较常见的任务,对于分类任务常见的评价指标有 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等

一. 混淆矩阵

1.1. 混淆矩阵定义

  • 首先需要知道混淆矩阵,混淆矩阵中的 P表示Positive,即正例或者阳性N表示Negative,即负例 或者阴性。
  1. TP(True Positive): 表示 实际为正被预测为正 的样本数量。从英文名可以看出,首先是true,正确的,说明判断正确;再看后面的是Positive,正类,那么联系前文可知是判断正确的,即将正类判断为正类
  2. TN: 表示 实际为负被预测为负 的样本的数量。首先是True,判断正确;再看后者,Negative,负类,可以记忆为负类判断为负类
  3. FN: 表示 实际为正但被预测为负 的样本的数量。首先是False,错误的,说明判断错误;再看后者,Negative,负类,可以记忆为 将正类判断错误为负类
  4. FP(False Positive): 表示 实际为负但被预测为正 的样本数量。首先是False,错误的,说明判断错误;再看后者,Positive,正类,那么联系前文可以记忆 将负类判断错误为正类
  • 另外:TP+FP表示所有被 预测为正的样本数量,同理FN+TN为所有被 预测为负的样本数量,TP+FN为 实际为正的样本数量,FP+TN为 实际为负的样本数量
  • 例如:下面例子中的混淆矩阵(11类别):
  • 下面给出了类别0的准确率、精确率、召回率、F1值计算方法。

1.2. 例子演示

  • Sklearn包中:
sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)
# y_true: 是样本真实分类结果
# y_pred: 是样本预测分类结果
# labels:是所给出的类别,通过这个可对类别进行选择
# sample_weight: 样本权重
  • 官方例子1:
from sklearn.metrics import confusion_matrix

y_true=[2,1,0,1,2,0]
y_pred=[2,0,0,1,2,1]

C=confusion_matrix(y_true, y_pred)

# 结果如下
# array([[1, 1, 0],
#        [1, 1, 0],
#        [1, 0, 2]])
  • 官方例子2:
y_true = ["cat", "ant", "cat", "cat", "ant", "bird"]
y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]
confusion_matrix(y_true, y_pred, labels=["ant", "bird", "cat"])

# 结果如下
# array([[2, 0, 0],
#        [0, 0, 1],
#        [1, 0, 2]])

二. 准确率

2.1. 准确率定义

  • 准确率是分类正确的样本占总样本个数的比例结合上面的混淆矩阵,公式可以这样写:
     Accuracy  = 正 确 分 类 的 样 本 个 数 总 样 本 个 数 = T P + T N T P + T N + F P + F N (1) \\text Accuracy =\\frac正确分类的样本个数总样本个数=\\fracT P+T NT P+T N+F P+F N\\tag1  Accuracy ==TP+TN+FP+FNTP+TN(1)
  • 准确率:是分类问题中最简单直观的评价指标,但存在明显的缺陷。比如如果样本中有99%的样本为正样本,那么分类器只需要一直预测为正,就可以得到99%的准确率,但其实际性能是非常低下的。也就是说,当不同类别样本的比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。
  • Sklearn函数接口的描述是这样的:
  • 准确度分类得分
  • 在多标签分类中,此函数计算子集精度:为样本预测的标签集必须完全匹配y_true(实际标签)中相应的标签集。
  • 参数
  • y_true: 一维数组,或标签指示符 / 稀疏矩阵,实际(正确的)标签.
  • y_pred: 一维数组,或标签指示符 / 稀疏矩阵,分类器返回的预测标签.
  • normalize: 布尔值, 可选的(默认为True). 如果为False,返回分类正确的样本数量,否则,返回正 确分类的得分.
  • sample_weight: 形状为[样本数量]的数组,可选. 样本权重.
  • 返回值
  • score: 浮点型
  • 如果normalize为True,返回正确分类的得分(浮点型),否则返回分类正确的样本数量(整型).
    当normalize为True时,最好的表现是score为1,当normalize为False时,最好的表现是score未样本数量.

2.2. 例子演示

  • 下面我们看一下sklearn中计算准确率的示例:
import numpy as np
from sklearn.metrics import accuracy_score

y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))  # 0.5
print(accuracy_score(y_true, y_pred, normalize=False))  # 2

# 在具有二元标签指示符的多标签分类案例中
print(accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2))))  # 0.5
  • 需要注意的是最后一行代码中: y_true为 [ 0 1 1 1 ] \\left[\\beginarrayll 0 & 1 \\\\ 1 & 1 \\endarray\\right] [0111],y_pred为 [ 1 1 1 1 ] \\left[\\beginarrayll 1 & 1 \\\\ 1 & 1 \\endarray\\right] [1111],矩阵的 行表示样本,列表示标签(样本具有两个标签,标签0和1共同确定样本类别),那么这时实际上只有一个样本是预测正确的,因此准确率为 1 2 \\frac12 21,即0.5。
  • 注意: 另外,因为准确率的缺陷比较明显,所以在多分类问题中一般不直接使用整体的分类准确率,而是 使用每个类别下的样本准确率的算术平均作为模型的评估指标
  • 混淆矩阵章节中的例子中,根据混淆矩阵可以计算出准确率为(主对角线上表示预测正确的样本数):
     Accuracy  = 正 确 分 类 的 样 本 个 数 总 样 本 个 数 = 75 110 = 0.682 (2) \\text Accuracy =\\frac正确分类的样本个数总样本个数=\\frac75110=0.682\\tag2  Accuracy ==11075=0.682(2)

三. 精确率

3.1. 精确率定义

  • 精确率指:模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例计算公式为:
     Precision  = 预 测 为 正 中 实 际 为 正 的 样 本 数 预 测 为 正 的 样 本 数 = T P T P + F P (3) \\text Precision =\\frac预测为正中实际为正的样本数预测为正的样本数=\\fracT PT P+F P\\tag3  Precision ==TP+FPTP(3)
  • Sklearn中的函数接口precision_score的描述如下:
  • 一、计算精确率
  • 精确率是 T P T P + F P \\fracT PT P+F P TP+FPTP的比例,其中 T P TP TP是预测为正&实际为正的数量, F P FP FP 是实际为负&预测为正. 精确率直观地可以说是 分类器不将负样本标记为正样本的能力.
  • 精确率最好的值是1,最差的值是0.
  • 二、参数
  • y_true : 一维数组,或标签指示符 / 稀疏矩阵,实际(正确的)标签.
  • y_pred : 一维数组,或标签指示符 / 稀疏矩阵,分类器返回的预测标签.
  • labels : 列表,可选值. 当average != binary时被包含的标签集合,如果average是None的话还包含它们的顺序. 在数据中存在的标签可以被排除,比如计算一个忽略多数负类的多类平均值时,数据中没有出现的标签会导致宏平均值(marco average)含有0个组件. 对于多标签的目标,标签是列索引. 默认情况下,y_true和y_pred中的所有标签按照排序后的顺序使用.
  • pos_label : 字符串或整型,默认为1. 如果average = binary并且数据是二进制时需要被报告的类. 若果数据是多类的或者多标签的,这将被忽略;设置labels=[pos_label]和average != binary就只会报告设置的特定标签的分数.
  • average : 字符串,可选值为 [None, ‘binary’ (默认), ‘micro’, ‘macro’, ‘samples’, ‘weighted’]. 多类或者多标签目标需要这个参数. 如果为None,每个类别的分数将会返回. 否则,它决定了数据的平均值类型.
  1. ‘binary’: 仅报告由pos_label指定的类的结果. 这仅适用于目标(y_true, pred)是二进制的情况.
  2. ‘micro微观’: 通过计算总的真正性、假负性和假正性来全局计算指标.
  3. ‘macro宏观’: 为每个标签计算指标,找到它们未加权的均值. 它不考虑标签数量不平衡的情况(常用).
  4. ‘weighted’: 为每个标签计算指标,并通过各类占比找到它们的加权均值(每个标签的正例数).它解决了’macro’的标签不平衡问题;它可以产生不在精确率和召回率之间的F-score.
  5. ‘samples’: 为每个实例计算指标,找到它们的均值(只在多标签分类的时候有意义,并且和函数accuracy_score不同).
  6. sample_weight : 形状为[样本数量]的数组,可选参数. 样本权重.
  • 三、返回值
  • precision : 浮点数(如果average不是None) 或浮点数数组, shape =[唯一标签的数量]
    二分类中正类的精确率或者在多分类任务中每个类的精确率的加权平均.

3.2. 例子演示

from sklearn.metrics import precision_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(precision_score(y_true, y_pred, average='macro'))  # 0.2222222222222222
print(precision_score(y_true, y_pred, average='micro'))  # 0.3333333333333333
print(precision_score(y_true, y_pred, average='weighted'))  # 0.2222222222222222
print(precision_score(y_true, y_pred, average=None))  # [0.66666667 0.     0.      ]
  • 直接看函数接口和示例代码还是让人有点云里雾里的,我们这里先介绍两个与多分类相关的概念,再说说上面的代码是如何计算的。
  • Macro[ˈmækroʊ]宏观 Average宏平均是指在计算均值时使 每个类别具有相同的权重,最后结果是每个类别的指标的算术平均值
  • Micro Average微平均是指计算多分类指标时 赋予所有类别的每个样本相同的权重,将所有样本合在一起计算各个指标
  • 根据precision_score接口的解释,我们可以知道,当average参数为None时,得到的结果是每个类别的precision。上面的y_true有3个类别,分别为类0、类1、类2。我们将每个类别的TP、FP、FN列在下表中
类别TP(预测为正实际为正)FP(实际为负预测为正)FN(实际为正预测为负)TN(实际为负预测为负)
类别02103
类别10222
类别20123