数据不平衡(class_weight评估方法上采样下采样)详解及实战

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据不平衡(class_weight评估方法上采样下采样)详解及实战相关的知识,希望对你有一定的参考价值。

数据不平衡(class_weight、评估方法、上采样、下采样)、详解及实战

 

核心学习函数方法:

np.random.choice()

np.where()

np.concatenate()

np.vstack()

np.hstack()

 

 

数据不平衡也叫作数据倾斜

处理方法:

 

  • 欠采样:从样本较多的类中再抽取,仅保留这些样本点的一部分;
  • 过采样:复制少数类中的一些点,以增加其基数;
  • 生成合成数据:从少数类创建新的合成点,以增加其基数;
  • 新的评估指标:ACC或者AUC等传统指标是否合适、是否无法表征数据不平衡引发的指标不可靠,例如使用F1指标,或者甚至使用阈值偏移的方法。
  • 配置class_weight:在模型中配置class_weight参数,指定合适的数据配比;

以上是关于数据不平衡(class_weight评估方法上采样下采样)详解及实战的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之类别不平衡问题 —— 采样方法

不平衡数据的 class_weight - Keras

解决正负样本数据不平衡

python使用imbalanced-learn的SMOTETomek方法同时进行上采样和下采样处理数据不平衡问题

python使用imbalanced-learn的SMOTEENN方法同时进行上采样和下采样处理数据不平衡问题

不平衡图像数据集 (Tensorflow2)