分类数据分析中的拟合优度检验？

Posted 2023-05-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分类数据分析中的拟合优度检验？相关的知识，希望对你有一定的参考价值。

在股票投资中有这样一个说法，盈利：持平：亏损=1:2:7，研究者调查了1200名股民，得到其中盈利者220名，亏损者740名，在显著水平0.05下说明数据是否支持该说法

知识图谱
继续我们的知识总结，本文总结包括：多选题研究、聚类分析研究、权重研究、非参数检验、数据分布。
查看本系列之前的文章，可点击下面的链接：论文里的分析方法要用哪一种，SPSSAU告诉你答案论文常用数据分析方法分类总结-2
11. 多选题研究
多选题分析-SPSSAU
多选题分析可分为四种类型包括：多选题、单选-多选、多选-单选、多选-多选。
“多选题分析”是针对单个多选题的分析方法，可分析多选题各项的选择比例情况
“单选-多选”是针对X为单选，Y为多选的情况使用的方法，可分析单选和多选题的关系。
“多选-单选”是针对X为多选，Y为单选的情况使用的方法。
“多选-多选”是针对X为多选，Y为多选的情况使用的方法。
12. 聚类分析
聚类分析-SPSSAU
聚类分析以多个研究标题作为基准，对样本对象进行分类。
如果是按样本聚类，则使用SPSSAU的进阶方法模块中的“聚类”功能，系统会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量（标题）聚类，此时应该使用分层聚类，并且结合聚类树状图进行综合判定分析。
13. 权重研究
权重研究-SPSSAU
权重研究是用于分析各因素或指标在综合体系中的重要程度，最终构建出权重体系。权重研究有多种方法包括：因子分析、熵值法、AHP层次分析法、TOPSIS、模糊综合评价、灰色关联等。
因子分析：因子分析可将多个题项浓缩成几个概括性指标（因子），然后对新生成的各概括性指标计算权重。
熵值法：熵值法是利用熵值携带的信息计算每个指标的权重，通常可配合因子分析或主成分分析得到一级权重，利用熵值法计算二级权重。
AHP层次分析法：AHP层次分析法是一种主观加客观赋值的计算权重的方法。先通过专家打分构造判断矩阵，然后量化计算每个指标的权重。
TOPSIS法：TOPSIS权重法是一种评价多个样本综合排名的方法，用于比较样本的排名。
模糊综合评价：是通过各指标的评价和权重对评价对象得出一个综合性评价。
灰色关联：灰色关联是一种评价多个指标综合排名的方法，用于判断指标排名。
14. 非参数检验
非参数检验-SPSSAU
非参数检验用于研究定类数据与定量数据之间的关系情况。如果数据不满足正态性或方差不齐，可用非参数检验。
单样本Wilcoxon检验用于检验数据是否与某数字有明显的区别。
如果X的组别为两组，则使用MannWhitney统计量，如果组别超过两组，则应该使用Kruskal-Wallis统计量结果，SPSSAU可自动选择。
如果是配对数据，则使用配对样本Wilcoxon检验
如果要研究多个关联样本的差异情况，可以用多样本Friedman检验。
如果是研究定类数据与定量（等级）数据之间的差异性，还可以使用Ridit分析。
15. 数据分布
数据分布-SPSSAU
判断数据分布是选择正确分析方法的重要前提。
正态性：很多分析方法的使用前提都是要求数据服从正态性，比如线性回归分析、相关分析、方差分析等，可通过正态图、P-P/Q-Q图、正态性检验查看数据正态性。
随机性：游程检验是一种非参数性统计假设的检验方法，可用于分析数据是否为随机。
方差齐性：方差齐检验用于分析不同定类数据组别对定量数据时的波动情况是否一致，即方差齐性。方差齐是方差分析的前提，如果不满足则不能使用方差分析。
Poisson分布：如果要判断数据是否满足Poisson分布，可通过Poisson检验判断或者通过特征进行判断是否基本符合Poisson分布（三个特征即：平稳性、独立性和普通性）
卡方拟合优度检验：卡方拟合优度检验是一种非参数检验方法，其用于研究实际比例情况，是否与预期比例表现一致，但只针对于类别数据。
单样本T检验：单样本T检验用于分析定量数据是否与某个数字有着显著的差异性。
上述分析方法均可在SPSSAU中使用分析，以及相关方法问题可查看SPSSAU帮助手册。参考技术A 知识图谱
继续我们的知识总结，本文总结包括：多选题研究、聚类分析研究、权重研究、非参数检验、数据分布。
查看本系列之前的文章，可点击下面的链接：论文里的分析方法要用哪一种，SPSSAU告诉你答案论文常用数据分析方法分类总结-2
11. 多选题研究
多选题分析-SPSSAU
多选题分析可分为四种类型包括：多选题、单选-多选、多选-单选、多选-多选。
“多选题分析”是针对单个多选题的分析方法，可分析多选题各项的选择比例情况
“单选-多选”是针对X为单选，Y为多选的情况使用的方法，可分析单选和多选题的关系。
“多选-单选”是针对X为多选，Y为单选的情况使用的方法。
“多选-多选”是针对X为多选，Y为多选的情况使用的方法。
12. 聚类分析
聚类分析-SPSSAU
聚类分析以多个研究标题作为基准，对样本对象进行分类。
如果是按样本聚类，则使用SPSSAU的进阶方法模块中的“聚类”功能，系统会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量（标题）聚类，此时应该使用分层聚类，并且结合聚类树状图进行综合判定分析。
13. 权重研究
权重研究-SPSSAU
权重研究是用于分析各因素或指标在综合体系中的重要程度，最终构建出权重体系。权重研究有多种方法包括：因子分析、熵值法、AHP层次分析法、TOPSIS、模糊综合评价、灰色关联等。
因子分析：因子分析可将多个题项浓缩成几个概括性指标（因子），然后对新生成的各概括性指标计算权重。
熵值法：熵值法是利用熵值携带的信息计算每个指标的权重，通常可配合因子分析或主成分分析得到一级权重，利用熵值法计算二级权重。
AHP层次分析法：AHP层次分析法是一种主观加客观赋值的计算权重的方法。先通过专家打分构造判断矩阵，然后量化计算每个指标的权重。
TOPSIS法：TOPSIS权重法是一种评价多个样本综合排名的方法，用于比较样本的排名。
模糊综合评价：是通过各指标的评价和权重对评价对象得出一个综合性评价。
灰色关联：灰色关联是一种评价多个指标综合排名的方法，用于判断指标排名。
14. 非参数检验
非参数检验-SPSSAU
非参数检验用于研究定类数据与定量数据之间的关系情况。如果数据不满足正态性或方差不齐，可用非参数检验。
单样本Wilcoxon检验用于检验数据是否与某数字有明显的区别。
如果X的组别为两组，则使用MannWhitney统计量，如果组别超过两组，则应该使用Kruskal-Wallis统计量结果，SPSSAU可自动选择。
如果是配对数据，则使用配对样本Wilcoxon检验
如果要研究多个关联样本的差异情况，可以用多样本Friedman检验。
如果是研究定类数据与定量（等级）数据之间的差异性，还可以使用Ridit分析。
15. 数据分布
数据分布-SPSSAU
判断数据分布是选择正确分析方法的重要前提。
正态性：很多分析方法的使用前提都是要求数据服从正态性，比如线性回归分析、相关分析、方差分析等，可通过正态图、P-P/Q-Q图、正态性检验查看数据正态性。
随机性：游程检验是一种非参数性统计假设的检验方法，可用于分析数据是否为随机。
方差齐性：方差齐检验用于分析不同定类数据组别对定量数据时的波动情况是否一致，即方差齐性。方差齐是方差分析的前提，如果不满足则不能使用方差分析。
Poisson分布：如果要判断数据是否满足Poisson分布，可通过Poisson检验判断或者通过特征进行判断是否基本符合Poisson分布（三个特征即：平稳性、独立性和普通性）
卡方拟合优度检验：卡方拟合优度检验是一种非参数检验方法，其用于研究实际比例情况，是否与预期比例表现一致，但只针对于类别数据。
单样本T检验：单样本T检验用于分析定量数据是否与某个数字有着显著的差异性。
上述分析方法均可在SPSSAU中使用分析，以及相关方法问题可查看SPSSAU帮助手册。

SAS统计初学1-卡方检验

卡方检验;

卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；
多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

卡方检验的核心思想：

卡方检验是以χ2分布为基础的一种常用假设检验方法，它的无效假设H0是：观察频数与期望频数没有差别。

该检验的基本思想是：首先假设H0成立，基于此前提计算出χ2值，它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；
否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义:

　　χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。

　　(1)设A代表某个类别的观察频数，E代表基于H0计算出的期望频数，A与E之差称为残差。

　　(2)显然，残差可以表示某一个类别观察值和理论值的偏离程度，但如果将残差简单相加以表示各类别观察频数与期望频数的差别，则有一定的不足之处。因为残差有正有负，相加后会彼此抵消，总和仍然为0，为此可以将残差平方后求和。

　　(3)另一方面，残差大小是一个相对的概念，相对于期望频数为10时，期望频数为20的残差非常大，但相对于期望频数为1 000时20的残差就很小了。考虑到这一点，人们又将残差平方除以期望频数再求和，以估计观察频数与期望频数的差别。

　　进行上述操作之后，就得到了常用的χ2统计量，由于它最初是由英国统计学家Karl Pearson在1900年首次提出的，因此也称之为Pearson χ2，其计算公式为

[chi^{2}=sum frac{(A-E)^{2}}{E}=sum_{i=1}^{K} frac{left(A_{i}-E_{i} ight)^{2}}{E_{i}}=sum_{i=1}^{K} frac{left(A_{i}-n p_{i} ight)^{2}}{n p_{i}} quad(i=1,2,3, ldots, k) ]

　　其中，Ai为i水平的观察频数，Ei为i水平的期望频数，n为总频数，pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi，k为单元格数。当n比较大时，χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

由卡方的计算公式可知，当观察频数与期望频数完全一致时，χ2值为0；观察频数与期望频数越接近，两者之间的差异越小，χ2值越小；反之，观察频数与期望频数差别越大，两者之间的差异越大，χ2值越大。换言之，大的χ2值表明观察频数远离期望频数，即表明远离假设。小的χ2值表明观察频数接近期望频数，接近假设。因此，χ2是观察频数与期望频数之间距离的一种度量指标，也是假设成立与否的

卡方检验的样本量要求

　　卡方分布本身是连续型分布，但是在分类资料的统计分析中，显然频数只能以整数形式出现，因此计算出的统计量是非连续的。只有当样本量比较充足时，才可以忽略两者间的差异，否则将可能导致较大的偏差具体而言，一般认为对于卡方检验中的每一个单元格，要求其最小期望频数均大于1，且至少有4／5的单元格期望频数大于5，此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求，可以采用确切概率法进行概率的计算。

适用于四格表应用条件：

　　1. 随机样本数据。两个独立样本比较可以分以下3种情况：

(1)所有的理论数T≥5并且总样本量n≥40，用Pearson卡方进行检验。(正常的Pearson检验)

(2)如果理论数T＜5但T≥1，并且n≥40，用连续性校正的卡方进行检验。(校正的Pearson)

(3)如果有理论数T＜1或n＜40，则用Fisher’s检验。(如果判断的理论数的数量不符合Pearson卡方的条件，可以查看SAS给出的结果中的Fisher‘s检验)

　　2. 卡方检验的理论频数不能太小。

R×C表卡方检验应用条件：

　　(1)R×C表中理论数小于5的格子不能超过1／5；

　　(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验，可以通过增加样本数、列合并来实现。

卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上，除了这个用途之外．卡方检验还有更广泛的应用。具体而言，其用途主要包括以下几个方面：

　　(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。

　　(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中，每个数字出现的概率是否各为1／36；掷硬币时，正反两面出现的概率是否均为0．5。

　　(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量：是、否)是否与呼吸道疾病(二分类变量：是、否)有关；产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。

　　(4)检验控制某种或某几种分类因素的作用以后，另两个分类变量是否相互独立。如在上例中，控制性别、年龄因素影响以后，吸烟是否和呼吸道疾病有关；控制产品加工工艺的影响后，产品原料类别是否与产品合格有关。

　　(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断，其诊断结果是否一致；采用两种方法对客户进行价值类别预测，预测结果是否一致。

步骤：

（1）原假设H0:?观察频数与期望频数无差别，;??备择假设H1:?2观察频数与期望频数有差别;

（2）根据数据计算卡方值、P值（右尾面积）；?若P值≤α，则拒绝H0;?若P值>α，则接受H0.

*2、* 下面对type 和origin 两个变量进行卡方检验;
* 解释一下产地不同的汽车类型是否有差异先假设没有差异;

proc freq data=sashelp.cars;
	tables type*origin /chisq;
run;

* 得到的结果概率值小于0.001 ,说明两者有显著性差异应该拒绝原假设。;
* 最终的结论：产地不同的汽车类型是有差异的。;

SAS Connection established. Subprocess id is 24590

SAS Output

The SAS System

The FREQ Procedure

Frequency Percent Row Pct Col Pct


Table of Type by Origin
Type	Origin
Type	Asia	Europe	USA	Total
Hybrid	3 0.70 100.00 1.90	0 0.00 0.00 0.00	0 0.00 0.00 0.00	3 0.70
SUV	25 5.84 41.67 15.82	10 2.34 16.67 8.13	25 5.84 41.67 17.01	60 14.02
Sedan	94 21.96 35.88 59.49	78 18.22 29.77 63.41	90 21.03 34.35 61.22	262 61.21
Sports	17 3.97 34.69 10.76	23 5.37 46.94 18.70	9 2.10 18.37 6.12	49 11.45
Truck	8 1.87 33.33 5.06	0 0.00 0.00 0.00	16 3.74 66.67 10.88	24 5.61
Wagon	11 2.57 36.67 6.96	12 2.80 40.00 9.76	7 1.64 23.33 4.76	30 7.01
Total	158 36.92	123 28.74	147 34.35	428 100.00

Statistics for Table of Type by Origin


Statistic	DF	Value	Prob
Chi-Square	10	35.6659	<.0001
Likelihood Ratio Chi-Square	10	42.1254	<.0001
Mantel-Haenszel Chi-Square	1	0.0808	0.7762
Phi Coefficient		0.2887
Contingency Coefficient		0.2773
Cramer's V		0.2041

Sample Size = 428

我们使用sas软件中预置的数据集cars，针对其中的两个变量Type和Origin进行卡方检验，原假设来自不同产地的汽车的类型相同，根据卡方检验给出的结果进行分析，样本的数量以及理论数的大小限制条件，满足卡方检验，自由度为10=（6-1）*(3-1), 得到的卡方值为35.6659，概率Porb为小于0.001,拒绝原假设H0，接受H1 来自不同产地的汽车的类型在95%的置信度下来源不一致。

方分布表
技术图片

以上是关于分类数据分析中的拟合优度检验？的主要内容，如果未能解决你的问题，请参考以下文章

R语言回归中的Hosmer-Lemeshow拟合优度检验