笔记 | 1.机器学习模型评估的相关常用概念

Posted 花海君的随笔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了笔记 | 1.机器学习模型评估的相关常用概念相关的知识,希望对你有一定的参考价值。

通过2乘2混淆矩阵学习机器学习模型评估的相关概念


  long long ago,学习《Machine Learning》就提上了日程,无奈其他事情太多+拖延症晚期,一直没有动力。最近正好遇到了相关问题,在B站也看了不少视频,一起愉快地整理笔记吧!!!

混淆矩阵是一个“表”,经常用来描述分类模型(或分类器)在已知真实值的一组测试数据上的性能。混淆矩阵本身比较容易理解,但是相关术语可能会令人混淆。

常见22混淆矩阵

 

笔记 | 1.机器学习模型评估的相关常用概念 

 

T表示true,也就是,那么F自然表示false,也就是P表示positive,可以理解成阳性N就是negative,就是阴性

T的都表示真,可以理解成预测正确,有F则表示预测错误。

TP = True Postive = 真阳性

 FN = False Negative = 假阴性

 FP = False Positive = 假阳性

TN = True Negative = 真阴性

 

举例比如说甲是班长乙是团支书。班级里15个同学,9个男生、6个女生,有一个任务需要甲召集所有男生、乙召集所有女生去执行。甲一声令下所有兄弟们都给我回来!!!召来了5男生,2个女生。乙又一声令下所有姐妹们都给我回来!!!召来了4男生,4个女生。结果如下:

 


男生 女生

5
2

4 4


我们可以将结果表示为混淆矩阵的形式:

 

笔记 | 1.机器学习模型评估的相关常用概念

 

准确率(accuracy)=(TP+TN)/(TP+FP+TN+FN),是预测结果准确的概率,既然是预测结果准确,那么显然既包含了正例也包含了负例

在上面的例子中,确率=(5+4)/(5+4+4+2)=0.6

 

精确率(precision, 或者PPV, positive predictive value)=TP/(TP+FP).是所有预测为正例的样本当中,正确的比例。


笔记 | 1.机器学习模型评估的相关常用概念

 

在上面的例子中,甲一声令下所有兄弟们都给我回来!!!召来了5男生,而另外4男生去了乙那里。那么精确率就是5/(5+4)=0.556

 

召回(recall)或者敏感度(sensitivity)(或者真阳性率,TPRTrue Positive Rate)=TP/(TP+FN)


笔记 | 1.机器学习模型评估的相关常用概念 


在上面的例子中,甲一声令下所有兄弟们都给我回来!!!召来了5男生,2个女生但只需要兄弟”,所以召回率就是5/(5+2)=0.714

 

特异度(specificity,或者真阴性率,TNRTrue Negative Rate)=TN/(TN+FP)

 

同理,在上面的例子中,乙又一声令下所有姐妹们都给我回来!!!召来了4男生,4个女生但只需要姐妹”,所以特异度就是4/(4+4)=0.5

 

 

F1-score是召回率和精确率的调合平均数,我们可以用它来均衡recallprecision

 

 

在上面的例子中,F1-值=0.625

 

 

实际上,在机器学习中,比如二分类问题,一般都是01形式、“是否”关系。而本文的举例是“男女”的平行关系,不是特别严谨,但为了便于初学理解,加深印象,只好如此。

只有反复练习,才能熟练掌握。还请多多指教,一起交流进步!早日学完博大精深的ML!

 

 

 

 

参考:

[1] 什么是混淆矩阵(confusion matrix) http://sofasofa.io/forum_main_post.php?postid=1000597

[2] 召回、精确、准确,这些让人头大的概念一文全都讲清楚

[3] 机器学习中的F1-score https://blog.csdn.net/qq_14997473/article/details/82684300

 


以上是关于笔记 | 1.机器学习模型评估的相关常用概念的主要内容,如果未能解决你的问题,请参考以下文章

1.机器学习之模型评估详解

《Python机器学习》笔记

机器学习笔记模型评估与选择

机器学习笔记绪论模型评估与选择

学习笔记Spark—— Spark MLlib应用—— 机器学习简介Spark MLlib简介

学习笔记Spark—— Spark MLlib应用—— 机器学习简介Spark MLlib简介