视觉任务中常见的评价指标(一)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视觉任务中常见的评价指标(一)相关的知识,希望对你有一定的参考价值。
参考技术A (注:以下仅讨论二分类的情况)针对预测值和实际值之间的关系,可以将样本的预测值分成:
因此我们可以得到一个混淆矩阵:
在单一指标中,最常用的就是准确率和召回率。
反应了真正例的样本(预测值为1的且预测对的样本)在所有预测为1的样本中的比例。
反应了真正例的样本在所有实际值为1的样本中的比,该指标仅关心有多少实际值为1的样本被预测出来。
此外,还有真正例率和负正利率,在接下来要讨论的ROC曲线中用到。
代表分类器预测的正类中实际正实例占所有正实例的比例。
通常来说,单一指标只能描述分类器的部分能力。讨论一个极端情况:
如果我们将分类器的阈值设置的很低(假设为0),所有样本都分为1,则recall=100%,而precision可能很低;
如果我们将分类器的阈值设置的很高(假设为0.9),则只有分类器十分确信的样本被分成1,则precision有可能接近100%(既分类器没有认错实际为1的样本),而recall可能很低(没有查全)。因此,使用单一指标往往不合适。
在实际讨论中,通常需要综合2个指标。因此,之后提出了ROC曲线和AUC曲线,用于综合两个指标,更全面地反应检测器的能力。
ROC曲线使用了TPR作为纵轴,FPR作为横轴,通过不断地调整阈值(从大到小),可以得到一组TPR和FPR的坐标点,从而绘制出如下的ROC曲线。
从直观上讲,ROC曲线越接近(0,1)点,分类能力越强。
在实际比较中,可以使用AUC(Area under Curve,曲线下的面积)作为分类器分类能力的评判标准,分类器分类能力越强,AUC越高,最高为1。
Precision Plot和Success Plot是两个衡量目标跟踪精准度的基本参数。
其中, 为tracked bounding box, 为ground_truth bounding box。同样,结果用average success plot来表示,即为该视频序列所有帧的平均误差。
之后,通过不断调整阈值,可以得到average precision plot和success plot随阈值变化的图像。
2.2 Accuracy,Robustness,EAO
在实时目标跟踪权威平台VOT2017中,官方使用了3个评价指标Accuracy,Robustness和EAO。
EAO提出的目的是希望一个好的跟踪器同时拥有好的A和R。
假设有 帧长的一个视频,那么一个跟踪器在这段视频上的覆盖率精度为每一帧精度的均值,这个精度就是IOU,用 表示,即
那么一个理想的EAO就是把 从 到 对应的 求个平均,就是期望平均覆盖率。( 是一个典型视频长度的范围,这些长度的视频占所有视频的概率是0.5)
回归任务中的评价指标之MSE,RMSE,MAE,R-Squared,MAPE
参考技术A 分类任务的评价指标 有准确率,P值,R值,F1值,而回归任务的评价指标就是 MSE , RMSE , MAE 、 R-Squared均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。
均方根误差RMSE,即均方误差开平方,常用来作为机器学习模型预测结果衡量的标准。
MAE是绝对误差的平均值。可以更好地反映预测值误差的实际情况。
R-Squared 又叫可决系数(coefficient of determination),也叫拟合优度,反映的是自变量 对因变量 的变动的解释的程度。越接近于1,说明模型拟合得越好。在sklearn中回归树就是用的该评价指标。
可以这么理解:将TSS理解为全部按平均值预测,RSS理解为按模型预测,这就相当于去比较你模型预测和全部按平均值预测的比例,这个比例越小,则模型越精确。当然该指标存在负数的情况,即模型预测还不如全部按平均值预测
缺点:当数据分布方差比较大时,预测不准时, 依然比较大,此时该评价指标就不太好
其中:
表述真实值 的变动程度,正比于方差
表示模型预测 和真实值 之间的残差
使用sklearn计算:
MAE:
范围 , 当预测值与真实值完全吻合时等于0, 即完美模型; 误差越大, 该值越大。
MAPE:
范围[0,+ ), MAPE 为0%表示完美模型, MAPE大于100%则表示劣质模型。MAPE的值越小,说明预测模型拥有更好的精确度.
以上是关于视觉任务中常见的评价指标(一)的主要内容,如果未能解决你的问题,请参考以下文章