Adaboost weka 真阳性与假阳性识别问题

Posted

技术标签:

【中文标题】Adaboost weka 真阳性与假阳性识别问题【英文标题】:Adaboost weka True positive vs False positive recognition issue 【发布时间】:2013-05-19 12:28:48 【问题描述】:

我在 Weka 实验环境中使用默认设置的 Adaboost M1 算法:

    运行 (1-10) -> 运行 10 次以提供更具统计意义的结果 随机拆分结果生成器 我使用训练百分比来区分训练和评估数据

现在,问题在于加权平均 TP 和 FP 结果。 我明白了:

TP:0.8 FP:0.47

但据我所知,如果TP率为0.8,FP率应该高达0.2? 我假设这与 10 次运行有关,但无论如何,如果从这次运行中获取平均值,那么这个 FP 率应该会低得多?

抱歉,这个问题太简单了,但从我的逻辑来看,这似乎是 Weka 工具包中的错误,还是我错了?谢谢

编辑:

为了避免提出新问题并且因为这与同一个问题有关,任何人都可以回答 Weka 中显示的加权平均值是什么?

我在下面包含了 Atilla 的示例:可以看出加权平均值不是平均值,例如AVG(0.933,0.422) != 0.77 等

有人可以回答这些值实际上是什么吗?

=== 按类别划分的详细准确度 ===

         TP Rate  FP Rate  Precision  Recall  F-Measure  MCC    ROC Area  PRC Area  Class
         0.933    0.578    0.776      0.933   0.847      0.429  0.844     0.917     tested_negative
         0.422    0.067    0.745      0.422   0.538      0.429  0.844     0.696     tested_positive

加权平均。 0.77 0.416 0.766 0.77 0.749 0.429 0.844 0.847

【问题讨论】:

有没有人可以帮我解决这个问题? 【参考方案1】:

我在 weka 的糖尿病数据集上使用默认参数运行 adoboostM1。我得到了以下结果。

=== Detailed Accuracy By Class ===

             TP Rate  FP Rate  Precision  Recall  F-Measure  MCC    ROC Area  PRC Area  Class
             0.933    0.578    0.776      0.933   0.847      0.429  0.844     0.917     tested_negative
             0.422    0.067    0.745      0.422   0.538      0.429  0.844     0.696     tested_positive
Weighted Avg.    0.77     0.416    0.766      0.77    0.749      0.429  0.844     0.847

请注意,此 TP 率和 FP 率适用于您的每个班级值。由于我在该数据集中有 两 (2) 个类特征值,因此我有 两 (2) 行。

还要注意:

0.933  + 0.067 = 1 
0.578 + 0.422 = 1 

正如您正确指出的那样,TP 率 + FP 率应该等于一 (1)。所以在你的例子中:我假设你有以下类变量:

target A,B

TP Rate FP Rate 
0.8      0.47   ..... for A
0.53     0.2    ..... for B

【讨论】:

是的,我现在明白了。谢谢,但我还有一个问题:什么是加权平均。然后?在您的情况下(以及在我的情况下), AVG(0.933,0.422) != 0.77 ,所以如果这不是两个类别的 TP 分类的平均率,它是什么?

以上是关于Adaboost weka 真阳性与假阳性识别问题的主要内容,如果未能解决你的问题,请参考以下文章

人脸识别中的假阳性

WEKA ROC CURVE - 色彩诠释

生信代码:机器学习-模型评价

Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性

有没有办法用已知的真阳性、真阴性、假阳性和假阴性来绘制混淆矩阵?

02_精确度,召回率,真阳性,假阳性