第十篇：非均衡分类问题的思考与问题与解决思路

Posted 2020-08-28 穆晨

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第十篇：非均衡分类问题的思考与问题与解决思路相关的知识，希望对你有一定的参考价值。

前言

在前面的文章中，讨论了一些分类算法。然后，有一点一直忽视了，就是非均衡的分类问题。

分均衡分类有两种情形

情形一：正例和反例数量相差非常大。

比如，分析信用卡信息集里面的正常样本和诈骗样本。正常样本固然比诈骗样本要多的多了。

情形二：分类正确/错误的代价不同。

比如，分析病人的体检数据，我们肯定是希望不漏过任何一个病例。因此，有病诊断为无病的后果要比无病诊断为有病的后果严重的多。

这样的非均衡分类的情形导致了仅仅是使用分类错误率还分析分类质量是不科学的。

本文就将介绍一些新的衡量分类质量的参数，工具。基于这些，可以对分类代码进行优化，以得到更符合实际用途的分类器。

工具一：混淆矩阵 (confusion matrix)

首先介绍几个概念：

1. TP: 真阳。就是实际为真预测为真。

2. FN: 假阳。就是实际为真预测为假。

3. FP: 假阴。就是实际为假预测为真。

4. TN: 真阴。就是实际为假预测为假。

列出这几个参数的详细表格(矩阵格式)即为混淆矩阵，如下图所示：

这样的表格能够很好的帮助人们进行分类的质量评估。然而，对于程序，或者说机器来说，需要的是一个基于代价的硬性指标。

因此，下面这个工具 - ROC曲线才是机器学习中处理非均衡分类问题的利器。

工具二：ROC 曲线

ROC 曲线图就是一个平面的二维图。横轴为假阳率；纵轴为真阳率。

真阳率 = TP / (TP+FN)。就是实际为真，预测也为真的样本在所有实际为真的样本中的概率。

假阳率 = FP / (FP+TN)。就是实际为假，预测为真的样本在所有实际为假的样本中的概率。

而移动的方向是按照阈值变化而变化的。每个点代表了一个阈值的真阳率和假阳率。

如下图所示例：

对于 ROC 模型，图中蓝色线段与横轴的面积占总面积的比率 - AUC 可以衡量整个分类的性能，但是切记它不能代替对整个线段以及错误率的观察。

AUC理论最佳值是1。如果说 "真” 这一类的权重更重要(好比诊断出病人有病)，那么AUC应该在0.5 - 1之间才好，而且是越接近1越好。

绘制 ROC 曲线

绘制 ROC 曲线首先必须要获取到分类器结果的预测强度，基于预测强度才能够调整真阳率，假阳率。

如下代码是 ROC 统计图的绘制代码，可将其进行封装，以在需要时随时调用。

 1 #==========================================
 2 # 输入:
 3 #        predStrengths:    预测强度
 4 #        classLabels:    分类结果
 5 # 输出:
 6 #        该分类器的ROC统计图
 7 #==========================================
 8 def plotROC(predStrengths, classLabels):
 9     \'绘制分类器的ROC统计图\'
10     
11     import matplotlib.pyplot as plt
12     # 当前绘制节点
13     cur = (1.0,1.0)
14     # AUC 统计
15     ySum = 0.0 
16     # 实际为真的分类数
17     numPosClas = sum(numpy.array(classLabels)==1.0)
18     # x轴移动步长
19     yStep = 1/float(numPosClas); 
20     # y轴移动步长
21     xStep = 1/float(len(classLabels)-numPosClas)
22     # 预测强度排序(下标排序)
23     sortedIndicies = predStrengths.argsort()
24     # 设置画布
25     fig = plt.figure()
26     fig.clf()
27     ax = plt.subplot(111)
28     
29     # 以预测强度递减的次序绘制ROC统计图像
30     for index in sortedIndicies.tolist()[0]:
31         if classLabels[index] == 1.0:
32             delX = 0; delY = yStep;
33         else:
34             delX = xStep; delY = 0;
35             ySum += cur[1]
36         
37         ax.plot([cur[0],cur[0]-delX],[cur[1],cur[1]-delY], c=\'b\')
38         cur = (cur[0]-delX,cur[1]-delY)
39         
40     ax.plot([0,1],[0,1],\'b--\')
41     plt.xlabel(\'False positive rate\'); plt.ylabel(\'True positive rate\')
42     plt.title(\'ROC curve for AdaBoost horse colic detection system\')
43     ax.axis([0,1,0,1])
44     plt.show()
45     print "the Area Under the Curve is: ",ySum*xStep