笔记 | 1.机器学习模型评估的相关常用概念
Posted 花海君的随笔
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了笔记 | 1.机器学习模型评估的相关常用概念相关的知识,希望对你有一定的参考价值。
通过2乘2混淆矩阵学习机器学习模型评估的相关概念
long long ago,学习《Machine Learning》就提上了日程,无奈其他事情太多+拖延症晚期,一直没有动力。最近正好遇到了相关问题,在B站也看了不少视频,一起愉快地整理笔记吧!!!
混淆矩阵是一个“表”,经常用来描述分类模型(或分类器)在已知真实值的一组测试数据上的性能。混淆矩阵本身比较容易理解,但是相关术语可能会令人混淆。
常见2乘2混淆矩阵
T表示true,也就是真,那么F自然表示false,也就是假。P表示positive,可以理解成阳性,N就是negative,就是阴性。
有T的都表示真,可以理解成预测正确,有F则表示预测错误。
TP = True Postive = 真阳性
FN = False Negative = 假阴性
FP = False Positive = 假阳性
TN = True Negative = 真阴性
举例:比如说甲是班长,乙是团支书。班级里有15个同学,9个男生、6个女生,有一个任务需要甲召集所有男生、乙召集所有女生去执行。甲一声令下“所有兄弟们都给我回来!!!”召来了5个男生,2个女生。乙又一声令下“所有姐妹们都给我回来!!!”召来了4个男生,4个女生。结果如下:
男生 | 女生 | |
甲 |
5 |
2 |
乙 |
4 | 4 |
我们可以将结果表示为混淆矩阵的形式:
准确率(accuracy)=(TP+TN)/(TP+FP+TN+FN),是预测结果准确的概率,既然是预测结果准确,那么显然既包含了正例也包含了负例。
在上面的例子中,准确率=(5+4)/(5+4+4+2)=0.6
精确率(precision, 或者PPV, positive predictive value)=TP/(TP+FP).是所有预测为正例的样本当中,正确的比例。
在上面的例子中,甲一声令下“所有兄弟们都给我回来!!!”召来了5个男生,而另外4个男生去了乙那里。那么精确率就是5/(5+4)=0.556。
召回率(recall)或者敏感度(sensitivity)(或者真阳性率,TPR,True Positive Rate)=TP/(TP+FN)
在上面的例子中,甲一声令下“所有兄弟们都给我回来!!!”召来了5个男生,2个女生。但只需要“兄弟”,所以召回率就是5/(5+2)=0.714。
特异度(specificity,或者真阴性率,TNR,True Negative Rate)=TN/(TN+FP)
同理,在上面的例子中,乙又一声令下“所有姐妹们都给我回来!!!”召来了4个男生,4个女生。但只需要“姐妹”,所以特异度就是4/(4+4)=0.5。
F1-score是召回率和精确率的调合平均数,我们可以用它来均衡recall和precision。
在上面的例子中,F1-值=0.625。
实际上,在机器学习中,比如二分类问题,一般都是01形式、“是否”关系。而本文的举例是“男女”的平行关系,不是特别严谨,但为了便于初学理解,加深印象,只好如此。
只有反复练习,才能熟练掌握。还请多多指教,一起交流进步!早日学完博大精深的ML!
参考:
[1] 什么是混淆矩阵(confusion matrix) http://sofasofa.io/forum_main_post.php?postid=1000597
[2] 召回、精确、准确,这些让人头大的概念一文全都讲清楚
[3] 机器学习中的F1-score https://blog.csdn.net/qq_14997473/article/details/82684300
以上是关于笔记 | 1.机器学习模型评估的相关常用概念的主要内容,如果未能解决你的问题,请参考以下文章