从 R 中的交叉验证(训练)数据中绘制 ROC 曲线

Posted

技术标签:

【中文标题】从 R 中的交叉验证(训练)数据中绘制 ROC 曲线【英文标题】:Plot ROC curve from Cross-Validation (training) data in R 【发布时间】:2016-09-09 23:12:54 【问题描述】:

我想知道是否有一种方法可以根据使用 caret 包生成的 SVM-RFE 模型的交叉验证数据绘制平均 ROC 曲线。

我的结果是:

Recursive feature selection

Outer resampling method: Cross-Validated (10 fold, repeated 5 times) 

Resampling performance over subset size:

 Variables    ROC   Sens   Spec Accuracy  Kappa  ROCSD SensSD SpecSD AccuracySD KappaSD Selected
         1 0.6911 0.0000 1.0000   0.5900 0.0000 0.2186 0.0000 0.0000     0.0303  0.0000         
         2 0.7600 0.3700 0.8067   0.6280 0.1807 0.1883 0.3182 0.2139     0.1464  0.3295         
         3 0.7267 0.4233 0.8667   0.6873 0.3012 0.2020 0.3216 0.1905     0.1516  0.3447         
         4 0.6989 0.3867 0.8600   0.6680 0.2551 0.2130 0.3184 0.1793     0.1458  0.3336         
         5 0.7000 0.3367 0.8600   0.6473 0.2006 0.2073 0.3359 0.1793     0.1588  0.3672         
         6 0.7167 0.3833 0.8200   0.6427 0.2105 0.1909 0.3338 0.2539     0.1682  0.3639         
         7 0.7122 0.3767 0.8333   0.6487 0.2169 0.1784 0.3226 0.2048     0.1642  0.3702         
         8 0.7144 0.4233 0.7933   0.6440 0.2218 0.2017 0.3454 0.2599     0.1766  0.3770         
         9 0.8356 0.6533 0.7867   0.7300 0.4363 0.1706 0.3415 0.2498     0.1997  0.4209         
        10 0.8811 0.6867 0.8200   0.7647 0.5065 0.1650 0.3134 0.2152     0.1949  0.4053        *
        11 0.8700 0.6933 0.8133   0.7627 0.5046 0.1697 0.3183 0.2147     0.1971  0.4091         
        12 0.8678 0.6967 0.7733   0.7407 0.4682 0.1579 0.3153 0.2559     

...
The top 5 variables (out of 10):
   SumAverage_GLCM_R1SC4NG2, Variance_GLCM_R1SC4NG2, HGZE_GLSZM_R1SC4NG2, LGZE_GLSZM_R1SC4NG2, SZLGE_GLSZM_R1SC4NG2

我已经尝试过这里提到的解决方案: ROC curve from training data in caret

optSize <- svmRFE_NG2$optsize
selectedIndices <- svmRFE_NG2$pred$Variables == optSize
plot.roc(svmRFE_NG2$pred$obs[selectedIndices],
         svmRFE_NG2$pred$LUNG[selectedIndices])

但是这个解决方案似乎不起作用(得到的 AUC 值完全不同)。我已经将训练过程的结果分成了50个交叉验证集,如上一个答案所述,但我不知道下一步该怎么做。

resamples<-split(svmRFE_NG2$pred,svmRFE_NG2$pred$Variables)
resamplesFOLD<-split(resamples[[optSize]],resamples[[optSize]]$Resample)

有什么想法吗?

【问题讨论】:

【参考方案1】:

正如您已经做的那样,您可以 a) 在 caret::traintrainControl 参数中启用 savePredictions = T,然后,b) 从经过训练的模型对象中,使用 pred 变量 - 它包含所有分区的所有预测并重新采样 - 计算您想要查看的任何 ROC 曲线。您现在可以选择多个 ROC,例如:

您可以查看所有分区的所有预测并一次重新采样

plot(roc(predictor = modelObject$pred$CLASSNAME, response = modelObject$pred$obs))

或者您可以通过单独的分区和/或重新采样(您在上面尝试过)来执行此操作。以下示例计算每个分区的 ROC 曲线重新采样,因此 10 个分区和 5 次重复将产生 50 条 ROC 曲线:

library(plyr)
l_ply(split(modelObject$pred, modelObject$pred$Resample), function(d) 
    plot(roc(predictor = d$CLASSNAME, response = d$obs))
)

根据您的数据和模型,后者在生成的 ROC 曲线和 AUC 值中为您提供一定的差异。您可以在为您的各个分区和重新采样计算的 AUCSDcaret 中看到相同的差异,因此这是您的数据和模型的结果,并且是正确的。

顺便说一句:我使用pROC::roc 函数来计算上面的示例,但您可以在此处使用任何合适的函数。而且,当使用caret::train 时,无论模型类型如何,获取 ROC 始终是相同的。

【讨论】:

【参考方案2】:

我知道这篇文章很旧,但我有同样的问题,试图理解为什么在计算每个重采样的 ROC 值以及同时使用所有预测和重采样计算 ROC 值时会得到不同的结果。哪种计算ROC的方法是正确的?

(很抱歉将此作为新答案发布,但我不允许发表评论。)

【讨论】:

以上是关于从 R 中的交叉验证(训练)数据中绘制 ROC 曲线的主要内容,如果未能解决你的问题,请参考以下文章

R 插入符号保留样本和测试集 ROC

交叉验证分析每一折(fold of Kfold)验证数据的评估指标并绘制综合ROC曲线

插入符号中训练数据的 ROC 曲线

在 R 中使用插入符号进行训练后,如何在 ROC 下计算 ROC 和 AUC?

使用 sci-kit 中的训练/测试数据而不是交叉验证的学习曲线

python基于sklearn编程实现交叉验证的ROC曲线绘制自定义AUC的有效小数位数(sklearn中RocCurveDisplay函数的默认有效位数为2位且不可以修改)