数据不平衡(class_weight评估方法上采样下采样)详解及实战
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据不平衡(class_weight评估方法上采样下采样)详解及实战相关的知识,希望对你有一定的参考价值。
数据不平衡(class_weight、评估方法、上采样、下采样)、详解及实战
核心学习函数方法:
np.random.choice()
np.where()
np.concatenate()
np.vstack()
np.hstack()
数据不平衡也叫作数据倾斜
处理方法:
- 欠采样:从样本较多的类中再抽取,仅保留这些样本点的一部分;
- 过采样:复制少数类中的一些点,以增加其基数;
- 生成合成数据:从少数类创建新的合成点,以增加其基数;
- 新的评估指标:ACC或者AUC等传统指标是否合适、是否无法表征数据不平衡引发的指标不可靠,例如使用F1指标,或者甚至使用阈值偏移的方法。
- 配置class_weight:在模型中配置class_weight参数,指定合适的数据配比;
以上是关于数据不平衡(class_weight评估方法上采样下采样)详解及实战的主要内容,如果未能解决你的问题,请参考以下文章
python使用imbalanced-learn的SMOTETomek方法同时进行上采样和下采样处理数据不平衡问题