理解统计相关性的kappa系数

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了理解统计相关性的kappa系数相关的知识,希望对你有一定的参考价值。

参考技术A

最近尝试对眼底图像进行多分类识别,使用的数据集来自kaggle的 Diabetic Retinopathy Detection 。根据眼底图像的好坏分为0,1,2,3,4五类,kaggle的评分基于quadratic weighted kappa,将我们预测的labels与医生手动标注的labels进行通过quadratic weighted kappa进行比较。以前没接触过,在这里简单写一下我对kappa系数的一些理解,如有错误欢迎指出。

Kappa系数是一种比例,代表着分类与完全随机的分类产生错误减少的比例。1960年Cohen等提出用Kappa值作为评价判断的一致性程度的指标,实践证明,它是一个描述诊断的一致性的较为理想的指标,因此在临床试验中得到广泛的应用。
kappa=1 两次判断完全一致
kappa>=0.75 比较满意的一致程度
kappa<0.4 不够理想的一致程度

根据kappa的计算方法分为简单kappa(simple kappa)和加权kappa(weighted kappa),加权kappa又分为 linear weighted kappa quadratic weighted kappa。

关于linear还是quadratic weighted kappa的选择,取决于你的数据集中不同class之间差异的意义。比如对于眼底图像识别的数据,class=0为健康,class=4为疾病晚期非常严重,所以对于把class=0预测成4的行为所造成的惩罚应该远远大于把class=0预测成class=1的行为,使用quadratic的话0->4所造成的惩罚就等于16倍的0->1的惩罚。如下图是一个四分类的两个计算方法的比较。

Diabetic Retinopathy Detection 这里给出了具体计算原理,在python中的实现可参考:
https://github.com/benhamner/Metrics/blob/master/Python/ml_metrics/quadratic_weighted_kappa.py

kappa一致性系数和spearman系数的区别

kappa一致性系数和spearman系数的区别是:

(1)kappa一致性系数:

    它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。

  计算公式编辑

  两幅栅格图的kappa计算公式为 k = (Po-Pc)/(1-Pc)

  设栅格总象元数为n,真实栅格为1的象元数为a1,为0的象元数为a0,模拟栅格为1的象元数为b1,为0的象元数为b0,两个栅格对应象元值相等的象元数为s,则

  Po = s/n, Pc = (a1*b1+a0*b0)/(n*n)

  在arcmap里,a1、a0、b1、b0从属性表可读出,s用raster calculator配合con()函数不难求出。

  kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

(2)spearman系数:

对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。

  计算步骤:

  ⑴编秩:将两变量X、Y成对的观察值分别从小到大顺序编秩,用pi表示xi的秩次;用qi表示yi的秩次。若观察值相同取平均秩次。

  ⑵将秩次带入公式计算:

  ⑶由样本算得的秩相关系数是否有统计学意义,应作假设检验。

  检验编辑

  ⑴建立假设检验,确定检验水准:

  ⑵计算检验统计量:

  查秩相关系数界值表,若超过界值表,则拒绝  ;  作 检验。

参考技术A

  kappa系数


  它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。

  计算公式编辑

  两幅栅格图的kappa计算公式为 k = (Po-Pc)/(1-Pc)

  设栅格总象元数为n,真实栅格为1的象元数为a1,为0的象元数为a0,模拟栅格为1的象元数为b1,为0的象元数为b0,两个栅格对应象元值相等的象元数为s,则

  Po = s/n, Pc = (a1*b1+a0*b0)/(n*n)

  在arcmap里,a1、a0、b1、b0从属性表可读出,s用raster calculator配合con()函数不难求出。

  kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。


  spearman相关系数

  对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。

  计算步骤:

  ⑴编秩:将两变量X、Y成对的观察值分别从小到大顺序编秩,用pi表示xi的秩次;用qi表示yi的秩次。若观察值相同取平均秩次。

  ⑵将秩次带入公式计算:

  ⑶由样本算得的秩相关系数是否有统计学意义,应作假设检验。

  检验编辑

  ⑴建立假设检验,确定检验水准:

  :  ,  :

  ⑵计算检验统计量:

  查秩相关系数界值表,若  超过界值表,则拒绝  ;  作  检验。

以上是关于理解统计相关性的kappa系数的主要内容,如果未能解决你的问题,请参考以下文章

如何理解皮尔逊相关系数

如何理解皮尔逊相关系数

如何通俗的理解协方差相关系数?

Pearson(皮尔逊)相关系数及MATLAB实现

如何计算两变量的相关系数r?

R语言偏相关或者部分相关性系数计算实战:通过拟合两个回归模型或者pysch包计算偏相关系数(Partial Correlation)通过方差分析获得偏相关系数的F统计量(偏F检验二型检验)