元过滤分类器和手动过滤分类器给出不同的结果
Posted
技术标签:
【中文标题】元过滤分类器和手动过滤分类器给出不同的结果【英文标题】:Meta filtered classifier and manually filtered classifiers give different results 【发布时间】:2012-01-22 00:12:33 【问题描述】:我用两种方法得到了相互矛盾的结果,在我看来这两种方法应该产生相同的输出。有人可以指出其中的区别是什么,因为我无法理解它:S
我正在研究 Drexel_Stats.arff。我使用具有 10 倍交叉验证的 1-NN 分类器。 没有任何预处理,这是我得到的混淆矩阵:
a b <-- classified as
14 3 | a = Win
5 1 | b = Loss
为了获得更好的结果,我使用了:
weka.attributeSelection.InfoGainAttributeEval
weka.attributeSelection.Ranker -T -1.0 -N 5
获取数据集的 5 个最具辨别力的特征。然后我手动摆脱了所有其他功能并重新运行我的 1-NN,我得到了以下结果:
a b <-- classified as
16 1 | a = Win
1 5 | b = Loss
现在这就是令人困惑的地方(至少对我而言)。我尝试使用元过滤分类器来省去手动丢弃特征的麻烦。这是我使用的(从 GUI 复制):
weka.classifiers.meta.FilteredClassifier
-F "weka.filters.supervised.attribute.AttributeSelection
-E \"weka.attributeSelection.InfoGainAttributeEval \"
-S \"weka.attributeSelection.Ranker -T -1.0 -N 5\""
-W weka.classifiers.lazy.IB1 -D
我理解这是对上一次操作的自动化,但实际上我这次得到的结果是不同的:
a b <-- classified as
15 2 | a = Win
4 2 | b = Loss
我做错了什么?
谢谢
编辑:这是 WEKA 输出的一部分:
=== Attribute Selection on all input data ===
Search Method:
Attribute ranking.
Attribute Evaluator (supervised, Class (nominal): 39 Outcome):
Information Gain Ranking Filter
Ranked attributes:
0.828 1 Opponent
0.469 38 Opp_Steals
0.42 24 Opp_Field_Goal_Pct
0.331 15 Def_Rebounds
0.306 28 Opp_Free_Throws_Made
Selected attributes: 1,38,24,15,28 : 5
Header of reduced data:
@relation 'Basketball_Statistics-weka.filters.unsupervised.attribute.Remove-V-R1,38,24,15,28,39'
@attribute Opponent Florida_Gulf_Coast,Vermont,Penn,Rider,Toledo,Saint_Joseph,Fairleigh_Dickinson,Villanova,Syracuse,Temple,George_Mason,Georgia_State,UNC_Wilmington,James_Madison,Hofstra,Old_Dominion,Northeastern,Delaware,VCU,Towson
@attribute Opp_Steals numeric
@attribute Opp_Field_Goal_Pct numeric
@attribute Def_Rebounds numeric
@attribute Opp_Free_Throws_Made numeric
@attribute Outcome Win,Loss
@data
在交叉验证的每一折中选择的这些特征是否相同?可以根据实例拆分选择不同的特征吗?
【问题讨论】:
【参考方案1】:您的第一个(“全局”)特征选择是使用所有数据点,包括所有标签,即。它可以访问您在交叉验证期间无法访问的类信息。因此,您的第一种方法存在缺陷,导致错误估计过大。你的第二种方法是正确的。它的表现更差,因为它很可能不会在交叉验证期间为十次运行中的每一次选择相同的五个特征。 hth伯恩哈德
【讨论】:
这是有道理的。然而,WEKA 仍有一个奇怪之处,请参阅问题中的编辑。以上是关于元过滤分类器和手动过滤分类器给出不同的结果的主要内容,如果未能解决你的问题,请参考以下文章