想知道低于哪个百分比我们可以说班级不平衡?

Posted

技术标签:

【中文标题】想知道低于哪个百分比我们可以说班级不平衡?【英文标题】:Wondering which percentage below it we can say the class is not balanced? 【发布时间】:2017-03-17 17:02:12 【问题描述】:

我确信这里有人经历过这样的事情...我有一个包含 4 个类的数据集,其中一个是 3% 的表示,我认为它的代表性不足,所以我做了一些重新采样的方法,但猜猜怎么了?它的分类精度没有变化,除了没有重采样方法的分类精度最多只有 1% 或 2% ! 所以我想知道数据中 3% 的类表示是否可以被认为是表示不足?

【问题讨论】:

【参考方案1】:

如果我们有一个二元问题,并且分类为 97% 到 3%,那么通过始终预测第一类,您已经获得了 97% 的正确率。因此,您可以在准确度方面获得的最大提升是 3%。

您应该查看每个类别的准确度,而不是总准确度。如果这 3% 是重要的对象(例如销售,你赚钱的地方),你可能只对那一类感兴趣。

一种简单的方法是加权平均准确度。在哪里计算每个类的准确性,然后取平均值。高于“多数分类器”(总是预测多数标签)将有 50% 的加权准确度(多数类总是正确预测,少数类总是不正确)。

【讨论】:

以上是关于想知道低于哪个百分比我们可以说班级不平衡?的主要内容,如果未能解决你的问题,请参考以下文章

Android 屏幕适配方案(百分比)

2 事实表和企业想知道一个事实占另一事实的百分比

如何使用读取文件中的数据

用户验证下降百分比

weka中的不平衡数据集?不工作

列百分比对齐模式搜索