[翻译]处理样本不均衡的8个方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[翻译]处理样本不均衡的8个方法相关的知识,希望对你有一定的参考价值。

参考技术A 本文主要翻译自 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset .
当某一类别的数据量远大于另一类别的样本数量时,我们就称其样本不均衡。数据类别样本本不均衡是机器学习中非常常见的一个问题,最常见的例子可能莫过于异常检测了。在异常检测中绝大部分样本都是正常类型的,只有极少部分属于异常。

此外,当我们数据中某一类别(这里及后面都以二分类为例)的数据量比例大于90%时,我们模型的准确率可能很简单的达到较好的准确率(90%以上),但是此时并不能说明我们的模型好,因为此时模型的预测结果可能只输出一个类别,而即便如此,其准确率依然能达到90%以上。很明显,这显然不是我们想要的。

下面我们将讨论8个用来解决数据不均衡的方法。

咋一听可能会觉得这可能是废话,但是事实上收集更多的数据这一方法常常被忽略。收集更多的数据不仅能有效解决过拟合问题,收集更多的少类别样本更能够解决数据不均衡的问题。所以,遇到样本不均衡问题时,我们应该首先思考能否收集更多的数据。

如上面说到的,当类别样本不均衡的时候,使用准确率作为评估标准往往很容易产生误导。此时我们可以采用别的评估方法,如kappa系数,ROC曲线,混淆矩阵,Recall,Precision,F1 Score等,更多可参见 Classification Accuracy is Not Enough: More Performance Measures You Can Use .

通过重采样,我们可以得到更多的数据样本已得到一个平衡的数据集。常用的采样方法有两种:

这些方法都很简单而且易于实现。通常可以将这两种方法都进行尝试,看哪种方法得到的结果更好来做决定采用哪种方法。更多的可以参考 Oversampling and undersampling in data analysis .

一些经验:

一个简单的合成样本的方法是随机的从数据量少的类别实例中随机挑选属性来生成样本。

你可以在数据集中凭经验对它们进行采样,或者也可以使用像Naive Bayes这样的方法,它可以在反向运行时独立地对每个属性进行采样。你将拥有更多不同的数据,但可能无法保留属性之间的非线性关系。

当然也可以使用系统算法生成合成样本。最流行的此类算法称为SMOTE (Synthetic Minority Over-sampling Technique). 正如它的名字一样,SMOTE是一个over-sampling方法,他通过样本数据较少类别的数据来合成新的数据而非简单的复制数据。该算法选择两个或更多个类似的实例(使用距离测量),并且对于差异内的相邻实例一次随机扰动实例一个属性。更多的关于SMOTE算法的内容,可以参考论文 SMOTE: Synthetic Minority Over-sampling Technique .

在Python中,在 UnbalancedDataset 包中实现了SMOTE算法。

不同算法可能适用于不同的问题,因此对于同一个问题可以尝试使用不同的算法试试。话虽如此,决策树通常在不平衡的数据集上表现良好,用于创建树的类变量的拆分规则可有效解决这个问题。

附加罚分模型使用相同的算法但是提供了不同的视角。对于样本数较少的类别,罚分模型添加额外的损失(加大损失),这使得模型更加重视少样本类别的分类。

通常,类惩罚或权重的处理专用于学习算法。存在惩罚版本的算法,例如惩罚的SVM和惩罚的LDA。

当你的算法无法使用重采样来解决数据不平衡问题或结果很差时,使用罚分模型是非常有必要的。他提供了另一种处理数据不均衡的方法。然而,设置罚分矩阵很复杂,常常需要尝试很多次才能找到最佳策略。

现在有很多关于样本不均衡问题的研究,他们都有自己的算法、评估方法、或者技术等。从不同的角度来思考数据不均衡问题可能带给我们不一样的结果。

两个可能需要考虑的是异常检测和变化检测。

异常检测是罕见事件的检测,这可能是由于偶然事件或由系统调用序列指示的程序的恶意活动而指示的机器故障。与正常操作相比,这些事件很少见。这种思维转变将次要类别视为异常类,这可能有助于考虑分离和分类样本的新方法。

变化检测类似于异常检测,除了寻找异常之外,它正在寻找变化或差异。这可能是使用模式或银行交易所观察到的用户行为的变化。

这两种转变都对分类问题采取了更为实际的立场,可能会为我们提供一些思考问题的新方法,也许还有一些尝试的技巧。

更加深入的思考所遇到的问题然后将问题分成一个个更容易解决的小问题。可以参考“ In classification, how do you handle an unbalanced training set? ”和 “ Classification when 80% of my training set is of one class “.

其实,样本不均衡就是不同类别的数据不同使得模型学习时候偏向各个类别的权重不同,而我们要做的,其实就是如何均衡各个类别的权重,无论是上采样,下采样,抑或是更改loss,给数据量少的类别的loss给多权重,更直接的,在某些库的分类器中我们可以看到给某些样本直接赋予权重,这些虽然看起来不同,但是其实都是为了均衡权重这一目的而来的。

这些方法都不需要太多的数学理论知识,你所需要做的仅仅只是挑出一种方法,然后开始尝试,直到找到最好的方法。

在看宗成庆老师的《统计自然语言处理》时,书中讲到文本情感分类数据不平衡时谈到了几个已有的方法,感觉还不错,因此摘过来。

该方法包括以下几个步骤对不平衡数据的标注样本进行训练:

该方法借鉴中心向量充分利用‘多类’里面所有样本的分类信息,可获得比传统采样方法更好的结果。

该方法有如下两个特点:

去掉其非监督标注部分,其实此方法就是在数据较多的类别中多次取样然后与少数据的类别一起训练多个分类器(每个分类器有一个类别的样本不同,然后分类时各个分类器又使用不同的特征),其思想与随机森林较为相像。

数据预处理-非平衡样本的处理方式(SMOTE--待补充)

     一.一般经验

     1. 1:20以上是需要做均衡处理的 ,普通数据召回率低的话1:10就可以做均衡处理  

      2. 一般如果不是严重不平衡,或者不平衡既是业务的正常反应,则不需要做处理,非平衡样本的处理方式不是必须的

      3. 多分类样本不均衡,只能过采样处理 (一般实验或比赛数据才会过采样处理, 一般不会过采样处理, 因为会有很多问题.)

    二.处理方法

1. 过采样:增加少数样本的个数,容易过拟合 用原始数据增加样本
2. 欠采样:减少多数样本的个数,容易丢失多数类的重要信息,容易欠拟合
3. SMOTE算法,合并少数类过采样技术 KNN近邻 增加的不是原始样本也不是真实的样本

三.SMOTE-只针对二分类模型

SMOTE算法步骤:
1. 随机找一个少数类的观测点
2. 用KNN计算观测点最近的样本
3. 随机挑选离观测点近邻的其中一个样本
4. 计算两点的差值后进行随机提取。所以这里的随机体现在两个方面,线性体现在求差值的运算上面。

# pip install imblearn

 

# 做平衡处理
from imblearn.over_sampling import SMOTE

# 实例化
over_samples = SMOTE(random_state=1234)

# fit数据结构
over_samples_x,over_samples_y = over_samples.fit_sample(Xtrain,Ytrain)
over_test_x,over_test_y = over_samples.fit_sample(Xtest,Ytest)   

# 重采样之后的比例
print(pd.Series(over_samples_y).value_counts()/len(over_samples_y))

# 重采样之前的比例
print(Ytrain.value_counts()/len(Ytrain))

 

以上是关于[翻译]处理样本不均衡的8个方法的主要内容,如果未能解决你的问题,请参考以下文章

《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

处理样本不均衡数据

机器学习-样本不均衡问题处理

非均衡样本处理的心法

如何解决样本不均衡的问题