数据分析-非参数秩方法
Posted 吾仄lo咚锵
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析-非参数秩方法相关的知识,希望对你有一定的参考价值。
文章目录
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
非参数秩方法,即不假定总体分布的具体形式,从数据本身获得所需信息,适用范围广,但忽略了分布类型,针对性差。
本文主要参考《数据分析》范金城,梅长林主编. -2版.
两种处理方法比较的秩检验
首先理解「秩」是什么,秩即顺序,是数据排序之后的位置。比如N个数据3,2,4,1,5,若按从小到大排序可以得到排序结果1,2,3,4,5,也就是第一个数据3的秩S1为3,以此类推S2=2,S3=4,S4=1,S5=5。
此节即通过秩来比较两种不同处理方法的优劣,也就是将N个数据分为两组,两组分别用两种不同的处理方法,分别为 n n n和 m m m个( m m m=N- n n n),共 C N n C_N^n CNn种分法,每种分配方式出现概率为 1 C N n \\frac1C_N^n CNn1。
检验零假设 H 0 H_0 H0:两方法处理效果无显著差异。由于分组是随机的,则秩 ( S 1 , S 2 , ⋅ ⋅ ⋅ , S n ) (S_1,S_2,···,S_n) (S1,S2,⋅⋅⋅,Sn)的零分布 P H 0 S 1 = s 1 , S 2 = s 2 , ⋅ ⋅ ⋅ , S n = s n = 1 C N n P_H_0\\S_1=s_1,S_2=s_2,···,S_n=s_n\\=\\frac1C_N^n PH0S1=s1,S2=s2,⋅⋅⋅,Sn=sn=CNn1。
Wilcoxon秩和检验
- 单边假设检验
单边假设即在实验前认为新方法比旧方法好,比如是旧方法的改进版。备择假设 H 1 H_1 H1:新方法优于对照方法。
N个数据分为 n n n和 m m m个,排序后得到秩,秩分别记为 ( S 1 , S 2 , ⋅ ⋅ ⋅ , S n ) (S_1,S_2,···,S_n) (S1,S2,⋅⋅⋅,Sn)和 ( R 1 , R 2 , ⋅ ⋅ ⋅ , R m ) (R_1,R_2,···,R_m) (R1,R2,⋅⋅⋅,Rm),记秩和为 W W W,即 W s = S 1 + S 2 + ⋅ ⋅ ⋅ + S n W_s=S_1+S_2+···+S_n Ws=S1+S2+⋅⋅⋅+Sn,同理 W r = R 1 + R 2 + ⋅ ⋅ ⋅ + R m W_r=R_1+R_2+···+R_m Wr=R1+R2+⋅⋅⋅+Rm,得到各种组合情况下的秩和后,即可得到对应零分布。
其实 W s W_s Ws和 W r W_r Wr的零分布是相同的,用来检验 H 0 H_0 H0也是等价的,即可以算 n n n和 m m m中较小一个即可。
根据零分布计算 p p p值, p = P H 0 W s ≥ w s p=P_H_0\\W_s≥w_s\\ p=PH0Ws≥ws,与题目给的显著水平 α \\alpha α比较,若 p < α p<\\alpha p<α,则拒绝 H 0 H_0 H0,认为新方法比就方法好,否则接受 H 0 H_0 H0,认为两者不存在显著差异。
- 习题2.1.(1):求
m
m
m=2,
n
n
n=4情况下,Wilcoxon秩和统计量
W
s
W_s
Ws和
W
r
W_r
Wr的零分布。
解: ( S 1 (S_1 (S1, S 2 S_2 S2, S 3 S_3 S3, S 4 ) S_4) S4)取各组值对应 W s W_s Ws如下表所示:
( S 1 (S_1 (S1, S 2 S_2 S2, S 3 S_3 S3, S 4 ) S_4) S4) | W s W_s Ws |
---|---|
1 2 3 4 | 10 |
1 2 3 5 | 11 |
1 2 3 6 | 12 |
1 2 4 5 | 12 |
1 2 4 6 | 13 |
1 2 5 6 | 14 |
1 3 4 5 | 13 |
1 3 4 6 | 14 |
1 3 5 6 | 15 |
1 4 5 6 | 16 |
2 3 4 5 | 14 |
2 3 4 6 | 15 |
2 3 5 6 | 16 |
2 4 5 6 | 17 |
3 4 5 6 | 18 |
由上表得 W s W_s Ws的零分布,如下表所示: