什么是类别不平衡?有哪些解决方案?

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是类别不平衡?有哪些解决方案?相关的知识,希望对你有一定的参考价值。

什么是类别不平衡?有哪些解决方案?

什么是类别不平衡?

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。

类别不平衡(class-imbalance),也叫数据倾斜,数据不平衡,就是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中,我们经常会遇到类别不平衡,例如交易欺诈、广告点

以上是关于什么是类别不平衡?有哪些解决方案?的主要内容,如果未能解决你的问题,请参考以下文章

详解类别不平衡问题

[一起面试AI]NO.10 什么是数据不平衡问题,应该如何解决

类不平衡问题与SMOTE过采样算法

解决类别不平衡:对损失和 sgd 的贡献比例缩放

1欠采用和过采样对模型带来什么影响?(包括对数据不平衡问题的解决方案以及采样方法的分析)

解决样本类别分布不均衡的问题