机器学习ROC以及代价曲线
Posted GYH_better_coder
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习ROC以及代价曲线相关的知识,希望对你有一定的参考价值。
写在前面
前篇回顾:
在这片博客里我将记录模型评价ROC曲线以及AUC面积的概念以及作用,并且同样以二分类任务为例介绍一个新的模型评价标准,那就是代价曲线
ROC于AUC
在这里我们要引入2个新的概念,那就是真正例率(True Positive Rate,简称TPR)和假正例率(False Positive Rate,简称FPR),定义如下图所示
现在我们介绍了很多的比例概念,让我们来整理一下吧
TPR:模型预测的正例占实际正例的比例
FPR:模型预测的反例占实际反例的比例
P:模型预测的正例的正确率
R:模型预测的正例的完整率
然后我们就可以介绍ROC曲线啦,我们以FPR为横坐标,TPR为纵坐标,修改分类阈值,也就是正例和反例的分割点,使得模型输出的TPR和FPR不同得到如下的坐标图
我们来看一个特殊点,那就是坐标(1,1)和(0,0),这个具体的含义是什么呢?我们来举个例子
这种情况就是很严重的过拟合了
这种情况就是很严重的欠拟合了,可以认为这个学习器啥也不会
在实际情况下,很难做到ROC曲线是连续的,因为拿来验证的数据集是有限的,所以实际情况下ROC曲线是非连续,而是离散的,如下图所示
其实ROC从(0,0)到(1,1)的过程可以看成随着训练的进行,模型输出从欠拟合到过拟合的过程
AUC
AUC全称Area Under ROC Curve,也就是粉色线所覆盖的区域,这个数值大小是用来评论模型的性能的,那该怎么计算呢?
如下图所示
AUC数值越大也代表着模型越优
代价曲线
在现实生活中,犯错的成本是不一样的,比如摔了一跤和摔下楼梯了这2个错误(失误)的成本是不一样的。同样的,在模型中的犯错成本也是不一样的,具体的有二分类代价矩阵,如下图所示
代价敏感
以上是关于机器学习ROC以及代价曲线的主要内容,如果未能解决你的问题,请参考以下文章