为啥当我使用更多变量时,ROC 中的曲线下面积 (AUC) 会减小?

Posted

技术标签:

【中文标题】为啥当我使用更多变量时,ROC 中的曲线下面积 (AUC) 会减小?【英文标题】:Why area under curve (AUC) in ROC decreases when I use more variables?为什么当我使用更多变量时,ROC 中的曲线下面积 (AUC) 会减小? 【发布时间】:2013-11-17 13:41:13 【问题描述】:

我的数据集包含 100 个特征的 400 个观察值。 400 个观测值中的每一个都属于 2 个类中的 1 个。

我正在 MATLAB 中训练一个神经网络 (patternet(15)) 以对该数据集进行分类。 我不会一次使用所有功能,但首先我使用一个功能 (400x1),然后添加第二个功能 (400x2),依此类推。在每一步,我都会使用perfcurve 计算 AUC。

这是我的问题:

AUC 正在发生变化,但并不总是随着每个额外的输入而变大。 随着我使用更多功能来训练网络,AUC 不应该增加吗? (我总是通过divideind 使用相同的划分)。

感谢所有 cmets 和帮助!谢谢!

【问题讨论】:

查看您制作的 ROC 曲线以及您的网络结构会很有帮助。更好的是,您可以发布您使用的代码。 也许第一个特征更具辨别力,最后一个只会增加噪音!您可以尝试运行一个随机森林,看看哪些特征是类别之间最具区分性的 @bendaizer 你是对的,第一个是最具歧视性的!我拥有的功能是根据类别之间分布的差异预先订购的。 @bogatron 很抱歉花了这么多时间来回答,我已经改变了几个月的项目。仍然很难发布所有 ROC 曲线,因为 MATLAB 为每个附加功能提供了四个 ROC 图,因此它们将是大约 400 个图 另外,我不知道为什么,但我不能投票给你的 cmets... 【参考方案1】:

也许第一个特征更具辨别力,而最后一个特征只会增加噪音!你可以尝试运行一个随机森林,看看哪些特征是类别之间最具区分性的

【讨论】:

以上是关于为啥当我使用更多变量时,ROC 中的曲线下面积 (AUC) 会减小?的主要内容,如果未能解决你的问题,请参考以下文章

ROC曲线 大于阈值后如何计算HR

ROC曲线怎么做啊

sklearn 如何计算二元分类器的 roc 曲线下面积?

ROC曲线

Sklearn机器学习——ROC曲线ROC曲线的绘制和AUC面积运用ROC曲线找到最佳阈值

r 使用ggplot / normal plot计算并绘制接收器工作特性曲线下的面积(AUC)(ROC)。