分类问题中的过采样和欠采样
Posted luban
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分类问题中的过采样和欠采样相关的知识,希望对你有一定的参考价值。
在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。
针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。
1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”;
2、增加反例的数目平衡数据,再分类,这种称为“过采样”;
3、阈值移动:直接使用原始数据进行分类,但在用训练好的分类器进行预测时,将下式加入到决策过程中,以调整正反例的平衡性。
以上是关于分类问题中的过采样和欠采样的主要内容,如果未能解决你的问题,请参考以下文章