weka中的不平衡数据集?不工作
Posted
技术标签:
【中文标题】weka中的不平衡数据集?不工作【英文标题】:Imbalanced Dataset in weka? Does not work 【发布时间】:2014-06-19 01:06:16 【问题描述】:我有 239 个阳性数据集和 32 个阴性数据集,因为它是与癌症相关的数据,我们只有很少的阴性数据集。现在在应用分类时,确保不平衡的数据集由于数量庞大而过于偏向正数。所以我尝试在 weka 中应用 SMOTE。我也尝试了各种百分比和最近的邻居。令我惊讶的是,而不是负类增加了一些实例,而正类进一步增加,使不平衡的数据集过于偏颇。可以做些什么来克服这一点。并建议我一些其他方法??如果有的话
对于初步研究,我们使用带有 RBF 作为分类器的 LIBSVM
【问题讨论】:
【参考方案1】:在这个不平衡的数据集问题中,我建议使用分层,这涉及对少数类进行过采样或对多数类进行下采样。您可以利用成本敏感分类在 WEKA 中模拟分层。
您可以使用两个分类器,MetaCost 和 CostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。根据经验,您可以尝试通过使用与类分布相反的权重来平衡类分布。在您的情况下,这意味着在成本矩阵中将 239 的成本分配给误报,将 32 的权重分配给误报。
【讨论】:
正如你所说,我能够分配 239 FP,但是当我将 FN 更改为 32 并保存成本文件时,显示 FN 仅为 1.0。我尝试更改它几次,但我无法更改为 32.0。我的问题是我无法编辑成本矩阵。怎么做 。无论我给出什么值作为 FN 都考虑为 1.0 哇!有用!!!我试图保存成本文件和“按需加载成本文件”。它的作用类似于“Easy Juicy Lemon Squeezy”。我在终端的 Libsvm 中尝试过同样的类型,但不习惯于 GUI 版本。现在它根据您的 cmets 效果很好。谢谢你 对此感到高兴。祝你考试顺利!以上是关于weka中的不平衡数据集?不工作的主要内容,如果未能解决你的问题,请参考以下文章
在机器学习中的不平衡数据集的情况下,AUC 是比准确性更好的指标吗?如果不是,那么哪个是最佳指标?