Adaboost weka 真阳性与假阳性识别问题
Posted
技术标签:
【中文标题】Adaboost weka 真阳性与假阳性识别问题【英文标题】:Adaboost weka True positive vs False positive recognition issue 【发布时间】:2013-05-19 12:28:48 【问题描述】:我在 Weka 实验环境中使用默认设置的 Adaboost M1 算法:
-
运行 (1-10) -> 运行 10 次以提供更具统计意义的结果
随机拆分结果生成器
我使用训练百分比来区分训练和评估数据
现在,问题在于加权平均 TP 和 FP 结果。 我明白了:
TP:0.8 FP:0.47
但据我所知,如果TP率为0.8,FP率应该高达0.2? 我假设这与 10 次运行有关,但无论如何,如果从这次运行中获取平均值,那么这个 FP 率应该会低得多?
抱歉,这个问题太简单了,但从我的逻辑来看,这似乎是 Weka 工具包中的错误,还是我错了?谢谢
编辑:
为了避免提出新问题并且因为这与同一个问题有关,任何人都可以回答 Weka 中显示的加权平均值是什么?
我在下面包含了 Atilla 的示例:可以看出加权平均值不是平均值,例如AVG(0.933,0.422) != 0.77 等
有人可以回答这些值实际上是什么吗?
=== 按类别划分的详细准确度 ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0.933 0.578 0.776 0.933 0.847 0.429 0.844 0.917 tested_negative
0.422 0.067 0.745 0.422 0.538 0.429 0.844 0.696 tested_positive
加权平均。 0.77 0.416 0.766 0.77 0.749 0.429 0.844 0.847
【问题讨论】:
有没有人可以帮我解决这个问题? 【参考方案1】:我在 weka 的糖尿病数据集上使用默认参数运行 adoboostM1。我得到了以下结果。
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0.933 0.578 0.776 0.933 0.847 0.429 0.844 0.917 tested_negative
0.422 0.067 0.745 0.422 0.538 0.429 0.844 0.696 tested_positive
Weighted Avg. 0.77 0.416 0.766 0.77 0.749 0.429 0.844 0.847
请注意,此 TP 率和 FP 率适用于您的每个班级值。由于我在该数据集中有 两 (2) 个类特征值,因此我有 两 (2) 行。
还要注意:
0.933 + 0.067 = 1
0.578 + 0.422 = 1
正如您正确指出的那样,TP 率 + FP 率应该等于一 (1)。所以在你的例子中:我假设你有以下类变量:
target A,B
TP Rate FP Rate
0.8 0.47 ..... for A
0.53 0.2 ..... for B
【讨论】:
是的,我现在明白了。谢谢,但我还有一个问题:什么是加权平均。然后?在您的情况下(以及在我的情况下), AVG(0.933,0.422) != 0.77 ,所以如果这不是两个类别的 TP 分类的平均率,它是什么?以上是关于Adaboost weka 真阳性与假阳性识别问题的主要内容,如果未能解决你的问题,请参考以下文章
Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性