weka中的不平衡数据集?不工作

Posted

技术标签:

【中文标题】weka中的不平衡数据集?不工作【英文标题】:Imbalanced Dataset in weka? Does not work 【发布时间】:2014-06-19 01:06:16 【问题描述】:

我有 239 个阳性数据集和 32 个阴性数据集,因为它是与癌症相关的数据,我们只有很少的阴性数据集。现在在应用分类时,确保不平衡的数据集由于数量庞大而过于偏向正数。所以我尝试在 weka 中应用 SMOTE。我也尝试了各种百分比和最近的邻居。令我惊讶的是,而不是负类增加了一些实例,而正类进一步增加,使不平衡的数据集过于偏颇。可以做些什么来克服这一点。并建议我一些其他方法??如果有的话

对于初步研究,我们使用带有 RBF 作为分类器的 LIBSVM

【问题讨论】:

【参考方案1】:

在这个不平衡的数据集问题中,我建议使用分层,这涉及对少数类进行过采样或对多数类进行下采样。您可以利用成本敏感分类在 WEKA 中模拟分层。

您可以使用两个分类器,MetaCost 和 CostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。根据经验,您可以尝试通过使用与类分布相反的权重来平衡类分布。在您的情况下,这意味着在成本矩阵中将 239 的成本分配给误报,将 32 的权重分配给误报。

【讨论】:

正如你所说,我能够分配 239 FP,但是当我将 FN 更改为 32 并保存成本文件时,显示 FN 仅为 1.0。我尝试更改它几次,但我无法更改为 32.0。我的问题是我无法编辑成本矩阵。怎么做 。无论我给出什么值作为 FN 都考虑为 1.0 哇!有用!!!我试图保存成本文件和“按需加载成本文件”。它的作用类似于“Easy Juicy Lemon Squeezy”。我在终端的 Libsvm 中尝试过同样的类型,但不习惯于 GUI 版本。现在它根据您的 cmets 效果很好。谢谢你 对此感到高兴。祝你考试顺利!

以上是关于weka中的不平衡数据集?不工作的主要内容,如果未能解决你的问题,请参考以下文章

在机器学习中的不平衡数据集的情况下,AUC 是比准确性更好的指标吗?如果不是,那么哪个是最佳指标?

使用 SMOTE 后导致高误报的不平衡数据集

不平衡数据集的 Knn 分类器

如何计算分层 K 折交叉验证的不平衡数据集的误报率?

处理Auto-Sklearn中多类分类的不平衡数据集的最佳方法

大型多类 NLP 分类的不平衡数据和样本量