卡方检验详解分析与实例

Posted bitcarmanlee

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了卡方检验详解分析与实例相关的知识,希望对你有一定的参考价值。

1.什么是卡方检验

卡方检验是一种用途很广的假设检验方法,属于非参数检验的范畴。
主要是比较两个或两个以上样本率以及两个分类变量的关联性分析。
根本思想是在于比较理论频次与实际频次的吻合程度或拟合优度问题。
(以上简介来自网络相关文档)

2.什么是卡方分布

卡方分布(chi-square distribution, χ 2 \\chi ^2 χ2-distribution)是概率统计中常用的一个分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布,即
X = ∑ i = 1 k Z i 2 X = \\sum_{i=1}^k Z_i^2 X=i=1kZi2
被称为服从自由度为k的卡方分布,可以记为
X ∼ χ 2 ( k ) X \\sim \\chi^2(k) Xχ2(k)
X ∼ χ k 2 X \\sim \\chi^2_k Xχk2

3.卡方检验的用途

相信做算法的同学都知道,卡方检验可以用来做特征选择。为什么这么说?因为卡方检验就是检验两个变量之间有没有关系。现在有一个变量是特征,有一个变量是分类结果,通过卡方检验计算特征与分类结果之间的相关性,自然就可以做特征选择。

举一个常见的投硬币的例子。
给定一个正常的硬币,现在投掷50次,问正反面出现的次数?
那我们肯定会说,最可能出现的情况是25次正面25次反面,26次正面24次反面也有很大可能,甚至30次正面20次反面也有可能。
但是如果是5次正面45次反面,这个可能性就非常非常小。
上面的方式,是已知硬币正常的结果,预测出现正反面的次数。

卡方检验恰好与此相反,是根据观察到的现象,即出现的正反面次数,来判断结果,即硬币是否正常。
还是以抛掷硬币为例,如果我们事先不知道硬币是否正常,抛50次硬币观察到的现象是5次正面45次正反面,这个时候可以断定硬币是不正常的。

4.卡方检验计算方法

说了上面这么多以后,正式给出卡方的计算方法:
χ 2 = ∑ ( f o − f e ) 2 f e \\chi ^ 2 = \\sum \\frac{(f_o - f_e)^2 }{f_e} χ2=fe(fofe)2
其中,O表示observation,为观测到的频次。E表示Expectation,是期望得到的频次。
上述公式,分子代表了实际值与期望值的偏差,而分母则是标准化过程。因此卡方的值越小,表示观测值与期望值(理论值) 越接近,说明两个变量之间越符合卡方分布。而卡方分布的前提是变量之间相互独立,因此卡方值越小,越表示两个变量之间独立。

我们以经典的四格表为例,看看卡方检验的基本流程
1.建立假设检验,原假设一般都是变量之间相互独立。
2.计算期望频次。
3.代入卡方统计公式计算卡方值。
4.计算自由度。
5.查表,比较卡方值或者P值或者 α \\alpha α值。

选举一个具体实例来说明上述过程。
为了验证肺癌与吸烟的关系,我们假设得到如下数据

首先假设吸烟与肺癌两者之间没关系,我们计算期望值

然后代入卡方值计算公式:
χ 2 = ∑ ( f o − f e ) 2 f e \\chi ^ 2 = \\sum \\frac{(f_o - f_e)^2 }{f_e} χ2=fe(fofe)2
χ 2 = ( 158 − 109 ) 2 / 109 + ( 169 − 218 ) 2 / 218 + ( 82 − 131 ) 2 / 131 + ( 311 − 262 ) 2 / 262 = 60.53 \\chi ^ 2 = (158-109)^2/109 + (169-218)^2/218+(82-131)^2/131 + (311-262)^2/262=60.53 χ2=(158109)2/109+(169218)2/218+(82131)2/131+(311262)2/262=60.53

而自由度的计算方法,可以简单抽象成(行数-1)(列数-1),所以四格表的自由度为1。

最后一步,查表。

通过上表可以看出来,自由度为1,显著性水平为0.05,当卡方值<3.84的时候,可以接受原假设,即变量之间没有相关性。卡方值越小,不相关的概率越大。现在卡方值远大于3.84,说明两者不相关的概率很小,即抽烟与肺癌有关。

5.P-value

P值,也就是常见到的 P-value。P 值是一种概率,指的是在 H0 假设为真的前提下,样本结果出现的概率。如果 P-value 很小,则说明在原假设为真的前提下,样本结果出现的概率很小,甚至很极端,这就反过来说明了原假设很大概率是错误的。通常,会设置一个显著性水平(significance level) α \\alpha α与 P-value 进行比较。如果 P − v a l u e < α P-value < \\alpha Pvalue<α ,则说明在显著性水平 α \\alpha α 下拒绝原假设。

6.四宫格卡方值计算公式

四宫格表的卡方值有特定计算公式
χ 2 = N ∗ ( A ∗ D − B ∗ C ) ( A + C ) ( A + B ) ( B + D ) ( C + D ) \\chi^2 = \\frac{N * (A*D - B*C)}{(A+C)(A+B)(B+D)(C+D)} χ2=(A+C)(A+B)(B+D)(C+D)N(ADBC)
其中, N = ( A + B + C + D ) N = (A+B+C+D) N=(A+B+C+D)
具体推导过程就是根据 χ 2 \\chi^2 χ2的原始定义计算而来。
其中,第一个宫格的计算值为:
[ A − ( A + B ) ( A + C ) ( A + B + C + D ) ] 2 ( A + B ) ( A + C ) ( A + B + C + D ) \\frac{\\left[A - \\frac{(A+B)(A+C)}{(A+B+C+D)}\\right]^2}{\\frac{(A+B)(A+C)}{(A+B+C+D)}} (A+B+C+D)(A+B)(A+C)[A(A+B+C+D)(A+B)(A+C)]2

四个宫格以此类推,分别计算相加,即可得到上面的公式。

以上是关于卡方检验详解分析与实例的主要内容,如果未能解决你的问题,请参考以下文章

spss分析方法-卡方检验

卡方检验详解

卡方检验和趋势卡方检验的区别?如何在SPSS中操作?

SPSS每个相关性分析都需要卡方检验吗?

卡方分布与卡方检验

卡方检验的用途