分类数据分析
Posted pandaboy1123
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分类数据分析相关的知识,希望对你有一定的参考价值。
Evernote Export
分类数据分析与卡方统计量
统计数据的类型有:分类数据、顺序数据和数值型数据,分类数据是对事物进行分类的结果,其特征是,结果虽然是用数值显示,但是不同的数值描述了调查对象的不同特征。
对分类数据进行分析的统计方法主要是利用卡方分布,又称卡方检验。
卡方检验的应用主要表现在:
1.拟合优度检验--一个变量的检验
2.独立向检验(列联表是进行独立性检验的重要工具)--两个变量之间的检验
卡方统计量:χ2主要用于两个分类变量之间的相关度。若用f0表示观察值频数,用f0表示期望频数,则χ2统计量可以写为χ2=∑fe(f0fe)2
统计量有如下特征:
1.χ2≥0,因为它是对平方结果的汇总
2.χ2的分布于自由度有关
3.χ2描述了观察值与期望值的接近程度
χ2检验正是通过对χ2的计算结果与χ2的临界值进行比较,做出是否拒绝原假设的决策。
拟合优度检验
拟合优度检验:拟合优度检验是用χ2统计量进行统计显著性检验的重要程度之一。它是依据总体分布的状况,计算出分类变量中的各类别的期望频数,与分布的观察频数进行比较,判断期望频数是否有显著差异,从而达到对分类变量进行分析的目的。
列联分析:独立性检验
拟合优度检验是对一个变量的检验,当遇到两个分类变量的问题看这两个变量是否存在联系
对于两个分类变量的分析,成为独立性分析
列联表中的相关测度
相关系数:一般用来描述2X2列联表,=nχ2,n为列联表中的总频数,也就是样本量
列联相关系数:当行数或列数大于2的时候,使用列联表关系系数,计算公式c=χ2+nχ2,当c=0时,两个变量相互独立
优点:1.计算简便,2.对总体分布没有要求;缺点:最大值依赖于行数,随着R和C的增大而增大,根据不同行数和列数计算的列联系数不便于比较,除非两个列联表的行数与列数一致
V相关系数:由于系数无上限,c系数小于1,提出V系数,V=nmin[(R1),(C1)]2,两个变量相互独立时,V=0,两个变量完全相关时,V=1,V的取值介入0~1之间
数值分析
前面利用卡方分布对两个分类变量之间的相关性进行了统计检验
列联分析中应注意的问题
以上是关于分类数据分析的主要内容,如果未能解决你的问题,请参考以下文章