方差分析和回归分析的异同是啥

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了方差分析和回归分析的异同是啥相关的知识,希望对你有一定的参考价值。

一、方差分析和回归分析的相异处

1、研究变量的分析点不同回归分析法既研究变量Y又研究变量X并在此基础上集中研究变量Y与X的函数关系,得到的是在不独立的情况下自变量与因变量之间的更加精确的回归函数式,也即判断相关关系的类型,因此需建立模型并估计参数。方差分析法集中研究变量Y的值及其变差而变量X值仅用来把Y值划分为子群或组,得到的是自变量(因素)对总量Y是否具有显著影响的整体判断,因此不需要建立模型和估计参数。
2、变量层次不同回归分析的数据则要求是连续的,总量也要求是连续的,所以回归分析对连续性变量非常有效,回归分析研究的是定量因素自变量X对因变量Y的影响,变量Y与X均用定距尺度去测量。当然,在回归分析中也不是绝对排斥定性因素对应变数Y的影响,因为对定性因素可采用虚拟变数的处理方法。方差分析中的因素与总量的数据可以是定性的,计数的
,也可以是计量的,或者说是离散的或连续的。尤其方差分析对于因素是定性数据也非常有效。变量Y用定距尺度去测量,变数X用定类尺度之测量。
3、 回归分析只能分析出变量之间关系比较简单的回归函数式,对比较复杂的关系无能为力。方差分析若得到因素与总量Y之间有显著性关系,但到底是怎样的关系做不出具体的回答,只能用回归分析来得到它们之间的回归函数关系式。方差分析不管变量之间(因素与总量Y)的关系有多么复杂,总能得到因素对总量Y的影响是否显著的整体判断。
4、确定Y均值方法不同 回归分析由于使用的对应顺序数据即Xi只有一个Yi与之对应,因此Y
无法由已知数据确,它是通过建立回归方程求的。而方差分析因素Xi对应的Y是直接通过试验数据求得的。
5、所得结果提供的信息不同回归分析可提供两种类型的信息:一是依据最小二乘法原则,建立X和Y的相关模型,并在X取不同值时影响对应的Y变量的数值,通过X取值可以对Y
取值进行预估;二是因变量Y的总变差分解为相加的分量,用之进行F检定。而方差分析仅仅提供后一种。
一、方差分析和回归分析的相同处
1、概念上的相似性回归分析是为了分析变量间的因果关系,研究自变量
X取不同值时,因变量平均值Y的变化。运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差(解释掉误差)和未被解释掉的误差(剩余误差);

方差分析是为了分析或检验总体间的均值是否有所不同。通过对样本中自变量X取不同值时所对应的因变量Y均值的比较,推论到总体变量间是否存在关系。运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差。
因此两种分析在概念上所具有的相似性是显而易见的。
2、统计分析步骤的相似性回归分析在确定自变量X是否为因变量Y的影响因素时,从分析步骤上先对X和Y进行相关分析,然后建立变量间的回归模型。最后再进行参数的统计显著性检验或对回归模型的统计显著性进行检验。

方差分析在确定X是否是Y的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显著性检验。二者在分析步骤上也具有相似性。
3、假设条件具有一定的相似性回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与Y之间存在的非确定性的相关关系,要求Y的所有子总体,其方差都相等;子总体均值在一条直线上;随机变量Yi是统计独立的,即Y1的数值不影响
Y2的数值,各Y值之间都没有关系;Y值的每一个子总体都满足正态分布。

方差分析的基本假定有:等方差性(总体中自变量的每一取值所对应因变量Yi的分布都具有相同方差);Yi的分布为正态分布。二者在假设条件上存在着相同。
4、在总离差平方和中的分解形式和逻辑上的相似性回归分析中,TSS=RSS+RSS,而在方差分析中,TSS=RSS+BSS。二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和。
5、确定影响因素上的相似性为简化分析起见,我们假设只有一个自变量X影响因变量Y。在回归分析中,要确定X是否是Y的影响因素,就要看当X已知时,对Y的总偏差有无影响。如果
X不是影响Y的因素,等同于只知变数Y的数据列一样,此时用Y去估计每个丫的值,所犯的错误
(即偏差)为最小。如果因素X是影响Y的因素,那么当已知X值后
6、在统计显著性检验上具有相似性回归分析的总显著性检验,是一种用R2测量回归的全部解释功效的检验。检验RSSR*(N-2)/RSS,方差分析的显著性检验是一种根据样本数据提取信息所进行的显著性检验。它也是通过F检验进行的。
参考技术A 方差分析与回归分析是有联系又不完全相同的分析方法。方差分析主要研究各变量对结果的影响程度的定性关系,从而剔除对结果影响较小的变量,提高试验的效率和精度。而回归分析是研究变量与结果的定量关系,得出相应的数学模式。在回归分析中,需要对各变量对结果影响进行方差分析,以剔除影响不大的变量,提高回归分析的有效性。
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
回归分析是研究各因素对结果影响的一种模拟经验方程的办法,回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析。
回归分析中,会用到方差分析来判断各变量对结果的影响程度,从而确定哪些因素是应该纳入到回归方程中,哪些由于对结果影响的方差小而不应该纳入到回归方程中。

回归分析12:方差分析模型

Chapter 12:方差分析模型

7.1 单因素方差分析

7.1.1 单因素方差分析模型

考虑一般的单因素方差分析问题,称所考虑的因素为因素 \\(A\\) ,假设它有 \\(a\\) 个水平。方差分析的目的是比较这 \\(a\\) 个水平的差异。假定对第 \\(i\\) 个水平,可观测的指标 \\(y\\) 如下表所示:

\\[\\beginarray|c|c|c| \\hline \\textLevels & \\textPopulation Distibution & \\textSample Observations \\\\ \\hline 1 & N\\left(\\mu_1,\\sigma^2\\right) & y_11,y_12,\\cdots,y_1n_1 \\\\ 2 & N\\left(\\mu_2,\\sigma^2\\right) & y_21,y_22,\\cdots,y_2n_2 \\\\ \\vdots & \\vdots & \\vdots \\\\ a & N\\left(\\mu_a,\\sigma^2\\right) & y_a1,y_12,\\cdots,y_an_a \\\\ \\hline \\endarray \\]

将其改写为如下形式:

\\[\\left\\\\beginarrayl y_ij=\\mu_i+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag1 \\]

其中 \\(\\mu_i\\) 是第 \\(i\\) 个总体的均值,\\(e_ij\\) 是相应的试验误差,比较因素 \\(A\\)\\(a\\) 个水平的差异归结为比较这 \\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 的差异。

首先定义如下的记号:

\\[\\mu=\\frac1n\\sum_i=1^an_i\\mu_i \\ , \\quad n=\\sum_i=1^an_i \\ , \\quad \\alpha_i=\\mu_i-\\mu \\ , \\]

这里 \\(\\mu\\) 为整个样本的均值的总平均,\\(\\alpha_i\\) 表示第 \\(i\\) 个水平下的均值与总平均的差异,反映了第 \\(i\\) 个水平对指标 \\(y\\) 的的效应。因此有

\\[\\sum_i=1^an_i\\alpha_i=\\sum_i=1^an_i(\\mu_i-\\mu)=n\\mu-n\\mu=0 \\ . \\]

\\(\\mu_i=\\mu+\\alpha_i\\) 代入,模型 \\((1)\\) 可以改写为

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\\\\\ \\displaystyle\\sum_i=1^an_i\\alpha_i=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag2 \\]

模型 \\((2)\\) 即为标准的单因素方差分析模型,写成矩阵形式即为

\\[\\left\\\\beginarrayl Y=X\\beta+e \\ , \\\\ \\\\ e\\sim N\\left(0,\\sigma^2I_n\\right) \\ , \\\\ \\\\ h\'\\beta=0 \\ , \\endarray\\right. \\tag3 \\]

其中

\\[\\beginaligned &Y=\\left(y_11,\\cdots,y_1n_1,y_21,\\cdots,y_2n_2,\\cdots,y_a1,\\cdots,y_an_a\\right)\' \\ , \\\\ \\\\ &\\beta=\\left(\\mu,\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\right)\' \\ , \\\\ \\\\ &e=\\left(e_11,\\cdots,e_1n_1,e_21,\\cdots,e_2n_2,\\cdots,e_a1,\\cdots,e_an_a\\right)\' \\ , \\\\ \\\\ &h=\\left(0,n_1,n_2,\\cdots,n_a\\right)\' \\ , \\\\ \\\\ \\endaligned \\]

而设计矩阵为

\\[X=X_n \\times(a+1)=\\left[\\beginarrayccccc 1 & 1 \\\\ \\vdots & \\vdots \\\\ 1 & 1 \\\\ 1 & & 1 \\\\ \\vdots & & \\vdots \\\\ 1 & & 1 \\\\ \\vdots & & & \\ddots \\\\ 1 & & & & 1 \\\\ \\vdots & & & & \\vdots \\\\ 1 & & & & 1 \\\\ \\endarray \\right] \\quad \\beginarrayl \\left\\\\beginarrayl \\\\ n_1\\text lines \\\\ \\\\ \\endarray\\right. \\\\ \\left\\\\beginarrayl \\\\ n_2\\text lines \\\\ \\\\ \\endarray\\right. \\\\ \\vdots \\\\ \\left\\\\beginarrayl \\\\ n_a\\text lines \\\\ \\\\ \\endarray\\right. \\endarray \\ . \\]

可见,单因素方差分析模型是一个带约束条件 \\(h\'\\beta=0\\) 的线性模型,且如下两种检验等价

\\[H_0:\\mu_1=\\mu_2=\\cdots=\\mu_a \\quad \\iff \\quad H_0:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ . \\]

若拒绝 \\(H_0\\) ,则说明因素 \\(A\\) 的各水平的效应之间有显著差异。

记所有样本的总平均值为

\\[\\bary=\\frac1n\\sum_i=1^a\\sum_j=1^n_iy_ij \\ . \\]

定义统计量

\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\ , \\]

\\(\\rm SS_T\\) 为总离差平方和,简称为总平方和,它反映了全部试验数据之间的差异。

记第 \\(i\\) 水平下的样本均值为

\\[\\bary_i\\cdot=\\frac1n_i\\sum_j=1^n_iy_ij \\ . \\]

因此

\\[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)=\\sum_j=1^n_iy_ij-n_i\\bary_i\\cdot=0 \\ . \\]

对总离差平方和 \\(\\rm SS_T\\) 进行分解:

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot+\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)\\left(\\bary_i\\cdot-\\bary\\right)+\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\left(\\bary_i\\cdot-\\bary\\right)\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)+\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A \\ . \\endaligned \\]

第一部分 \\(\\rm SS_E\\) 被称为误差平方和或组内平方和:

\\[\\rm SS_E=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2 \\ . \\]

它反映了随机误差的影响。因为对固定的第 \\(i\\) 水平,样本 \\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 来自同一个正态总体,所以它们之间的差异完全是由随机误差所致。

第二部分 \\(\\rm SS_A\\) 被称为效应平方和或组间平方和:

\\[\\rm SS_A=\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2=\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\ . \\]

由于 \\(\\bary_i\\cdot\\) 是第 \\(i\\) 水平下的样本均值,是第 \\(i\\) 个正态总体的均值的估计,而 \\(\\bary\\)\\(\\mu=\\frac1n\\sum_i=1^an_i\\mu_i\\) 的估计,因此 \\(\\rm SS_A\\)\\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 之间的差异大学的一个度量。

平方和分解公式 \\(\\rm SS_T=\\rm SS_E+\\rm SS_A\\) ,将总离差平方和按其来源分解为两部分,一部分是由随机误差引起的误差平方和 \\(\\rm SS_E\\) ,另一部分是由因素 \\(A\\) 的各水平差异引起的效应平方和 \\(\\rm SS_A\\)

7.1.2 单因素方差分析检验统计量

由于对固定的 \\(i\\)\\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 均为来自 \\(N\\left(\\mu_i,\\sigma^2\\right)\\) 的样本,因此

\\[\\sum_j=1^n\\left(y_ij-\\bary_i\\cdot\\right)^2/\\sigma^2\\sim\\chi^2(n_i-1) \\ . \\]

所以有

\\[\\rm E\\left(\\rm SS_E\\right)=\\sum_i=1^a\\rm E\\left[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\right]=(n-a)\\sigma^2 \\ . \\]

这说明 \\(\\rm SS_E/(n-a)\\)\\(\\sigma^2\\) 的一个无偏估计。

另一方面

\\[\\beginaligned \\rm E\\left(\\rm SS_A\\right)&=\\rm E\\left[\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary-\\alpha_i+\\alpha_i\\right)^2\\right] \\\\ \\\\ &=\\sum_i=1^an_i\\left[\\rm E\\left(\\bary_i\\cdot-\\bary-\\alpha_i\\right)^2+\\alpha_i^2\\right] \\\\ \\\\ &=\\sum_i=1^an_i\\left(\\frac\\sigma^2n_i-\\frac\\sigma^2n\\right)+\\sum_i=1^an_i\\alpha_i^2 \\\\ \\\\ &=(a-1)\\sigma^2+\\sum_i=1^an_i\\alpha_i^2 \\ . \\endaligned \\]

所以有

\\[\\rm E\\bigg[\\rm SS_A/(a-1)\\bigg]=\\sigma^2+\\sum_i=1^an_i\\alpha_i^2\\big/(a-1) \\ . \\]

可以看出,\\(\\rm SS_A/(a-1)\\) 反映了各水平效应的影响。若 \\(H_0\\) 为真,则 \\(\\rm SS_A/(a-1)\\)\\(\\sigma^2\\) 的无偏估计。因此,若 \\(H_0\\) 为真,则定义

\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a) \\ , \\]

此时 \\(F\\) 统计量应接近于 \\(1\\) 。若 \\(H_0\\) 不为真,则 \\(F\\) 有变大的趋势。

由样本 \\(\\y_ij\\\\) 的独立性可知

\\[\\frac\\rm SS_E\\sigma^2=\\frac\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\sigma^2\\sim\\chi^2(n-a) \\ . \\]

\\(H_0\\) 为真,则样本 \\(\\y_ij\\\\) 是独立同分布序列,且服从 \\(N(\\mu,\\sigma^2)\\) ,所以

\\[\\frac\\rm SS_T\\sigma^2\\sim \\chi^2(n-1) \\ . \\]

为了推导检验统计量在 \\(H_0\\) 为真时的分布,我们把 \\(\\rm SS_T,\\,\\rm SS_E\\)\\(\\rm SS_A\\) 都写成正态随机向量的二次型的形式,即

\\[Y=\\left(y_11,y_12,\\cdots,y_1n_1,\\cdots,y_a1,y_a2,\\cdots,y_an_a\\right)\' \\ . \\]

\\(H_0\\) 为真,则

\\[Y\\sim N\\left(\\mu\\boldsymbol1_n,\\sigma^2I_n\\right) \\ , \\quad \\fracY\\sigma\\sim N(\\frac\\mu\\sigma\\boldsymbol1_n,I_n) \\ . \\]

于是

\\[\\beginaligned &\\rm SS_T=Y\'\\left(I_n-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'CY \\ , \\\\ \\\\ &\\rm SS_E=Y\'\\left(I_n-\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)\\right)Y\\equiv Y\'C_1Y \\ , \\\\ \\\\ &\\rm SS_A=Y\'\\left(\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'C_2Y \\ . \\endaligned \\]

现已知:

  1. \\(C=C_1+C_2\\)
  2. \\(C_2\\) 为非负定矩阵(因为它是对称幂等矩阵,特征根非 \\(0\\)\\(1\\) );
  3. \\(\\rm SS_E/\\sigma^2\\sim\\chi^2(n-a)\\)
  4. \\(H_0\\) 为真,则 \\(\\rm SS_T/\\sigma^2\\sim\\chi^2(n-1)\\)

则根据定理 2.4.4 ,若 \\(H_0\\) 为真,则有

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1,\\lambda_2) \\ . \\]

经计算得非中心参数

\\[\\lambda_2=\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)\'C_2\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)=0 \\ , \\]

所以

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ . \\]

且有 \\(\\rm SS_A\\)\\(\\rm SS_E\\) 相互独立。所以 \\(F\\) 统计量可以作为 \\(H_0\\) 为真的检验统计量:

\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a)\\sim F(a-1,n-a) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F>F_\\alpha(a-1,n-a)\\right\\ \\ . \\]

单因素方差分析的计算过程可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F=\\rm MS_A/\\rm MS_E\\\\ \\hline \\text误差 & \\rm SS_E & n-a & \\rm MS_E=\\rm SS_E/(n-a) & \\\\ \\hline \\text总和 & \\rm SS_T & n-1 & \\\\ \\hline \\endarray \\]

7.1.3 区间估计与假设检验

如果 \\(F\\) 检验的结论是拒绝原假设,则表明从现有数据看,我们有理由认为因素 \\(A\\)\\(a\\) 个水平效应之间有显著的差异,也就是说,\\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 不完全相同。此时,我们需要对每一对 \\(\\mu_i\\)\\(\\mu_j\\) 之间的差异程度作出估计。这就等价于对效应之差 \\(\\mu_i-\\mu_j\\) 作区间估计,或者对 \\(H_0:\\mu_i=\\mu_j\\) 进行假设检验。

不难看出

\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim N(0,1) \\ . \\]

\\(\\hat\\sigma^2=\\rm SS_E/(n-a)\\) ,所以有

\\[\\frac(n-a)\\hat\\sigma^2\\sigma^2=\\frac\\rm SS_E\\sigma^2\\sim\\chi^2(n-a) \\ , \\]

\\(\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)\\)\\(\\rm SS_E\\) 相互独立,所以有

\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ . \\]

因此在 \\(H_0:\\mu_i=\\mu_j\\) 成立时,检验统计量

\\[t_ij=\\frac\\bary_i\\cdot-\\bary_j\\cdot\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\|t_ij|>t_\\alpha/2(n-a)\\right\\ \\ . \\]

如果用区间估计的方法进行假设检验,则 \\(\\mu_i-\\mu_j\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_i\\cdot-\\bary_j\\cdot-\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a),\\bary_i\\cdot-\\bary_j\\cdot+\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a)\\right) \\ . \\]

如果这个区间包含 \\(0\\) ,则表明我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\)\\(\\mu_j\\) 没有显著差异;如果整个区间落在 \\(0\\) 的左边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 小于 \\(\\mu_j\\)​ ;如果整个区间落在 \\(0\\) 的右边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 大于 \\(\\mu_j\\)

7.2 两因素方差分析

7.2.1 无交互效应的情形

考虑一般的两因素试验问题,将这两个因素分别记为 \\(A\\)\\(B\\) ,假定因素 \\(A\\)\\(a\\) 个不同的水平,因素 \\(B\\)\\(b\\) 个不同的水平,分别记为 \\(A_1,A_2,\\cdots,A_a\\)\\(B_1,B_2,\\cdots,B_b\\)

这里我们只考虑在因素 \\(A\\)\\(B\\) 的各个水平的组合下做 \\(1\\) 次试验的情形,即数据样本如下表所示:

\\[\\beginarray|c|c|c| \\hline A_i\\backslash B_j & B_1 & B_2 & \\cdots & B_b\\\\ \\hline A_1 & y_11 & y_12 & \\cdots & y_1b \\\\ A_2 & y_21 & y_22 & \\cdots & y_2b \\\\ \\vdots & \\vdots & \\vdots & & \\vdots \\\\ A_a &y_a1 & y_a2 & \\cdots & y_ab \\\\ \\hline \\endarray \\]

两因素方差分析模型可以写为

\\[\\left\\\\beginarrayl y_ij=\\mu_ij+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag4 \\]

为进行统计分析,将 \\(\\mu_ij\\) 做适当的分解,即

\\[\\beginaligned &\\mu=\\frac1ab\\sum_i=1^a\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_i\\cdot=\\frac1b\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_\\cdot j=\\frac1a\\sum_i=1^a\\mu_ij \\ . \\\\ \\\\ &\\alpha_i=\\bar\\mu_i\\cdot-\\mu \\ , \\quad i=1,2,\\cdots,a \\ , \\\\ \\\\ &\\beta_j=\\bar\\mu_\\cdot j-\\mu \\ , \\quad j=1,2,\\cdots,b \\ , \\\\ \\\\ &\\gamma_ij=\\mu_ij-\\bar\\mu_i\\cdot-\\bar\\mu_\\cdot j+\\mu \\ , \\endaligned \\]

其中 \\(\\mu\\) 为总平均,\\(\\alpha_i\\) 表示因素 \\(A\\) 的水平 \\(A_i\\) 的效应,\\(\\beta_j\\) 表示因素 \\(B\\) 的水平 \\(B_j\\) 的效应,\\(\\gamma_ij\\) 表示 \\(A_i\\)\\(B_j\\) 的交互效应,可以写为

\\[\\gamma_ij=\\mu_ij-\\left(\\bar\\mu_i\\cdot-\\mu\\right)-\\left(\\bar\\mu_\\cdot j-\\mu\\right)-\\mu=\\left(\\bar\\mu_ij-\\mu\\right)-\\alpha_i-\\beta_j \\ , \\]

通常把因素 \\(A\\)\\(B\\) 对试验指标的交互效应设想为某一因素的效应,记为 \\(A\\times B\\) 。不难验证

\\[\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ . \\]

注意到 \\(\\mu_ij\\) 可以改写为 \\(\\mu_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij\\) ,因此模型 \\((4)\\) 可以写成

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\ \\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag5 \\]

事实上,交互效应的约束条件应该写成

\\[\\sum_j=1^b\\gamma_ij=0 \\ , \\quad \\forall i=1,2,\\cdots,a \\ ; \\quad \\sum_i=1^a\\gamma_ij=0 \\ , \\quad \\forall j=1,2,\\cdots,b \\ . \\]

这里共有 \\(a+b-1\\) 个约束。

假设 \\(\\gamma_ij=0,\\,i=1,2,\\cdots,a,\\,j=1,2,\\cdots,b\\) ,即不存在交互效应,此时模型 \\((5)\\) 可写为

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+\\beta_j+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag6 \\]

这就是无交互效应的两因素方差分析模型。我们的目的是考察因素 \\(A\\)\\(B\\) 的各个水平对指标的影响有无显著差异,这归结为假设

\\[\\beginaligned &H_1:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ , \\\\ &H_2:\\beta_1=\\beta_2=\\cdots=\\beta_b=0 \\ . \\endaligned \\]

接下来我们推导以上两个假设的检验统计量。记

\\[\\bary=\\frac1ab\\sum_i=1^a\\sum_j=1^by_ij \\ , \\quad \\bary_i\\cdot=\\frac1b\\sum_j=1^by_ij \\ , \\quad \\bary_\\cdot j=\\frac1a\\sum_i=1^ay_ij \\ , \\]

定义全部试验数据的总离差平方和 \\(\\rm SS_T\\)

\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary\\right)^2 \\ . \\]

对其进行分解得

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary+\\bary_i\\cdot-\\bary+\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary\\right)^2+\\sum_i=1^ab\\left(\\bary_i\\cdot-\\bary\\right)^2+\\sum_j=1^ba\\left(\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B \\ . \\endaligned \\]

其中,\\(\\rm SS_E\\) 反映了试验的随机误差的影响,称为误差平方和。将 \\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,将 \\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和。可以证明:

\\[\\frac\\rm SS_E\\sigma^2\\sim\\chi^2((a-1)(b-1)) \\ . \\]

\\(H_1\\) 成立时,\\(\\rm SS_A/\\sigma^2\\)\\(\\rm SS_E\\) 相互独立,且有

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ . \\]

\\(H_2\\) 成立时,\\(\\rm SS_B/\\sigma^2\\)\\(\\rm SS_E\\) 相互独立,且有

\\[\\frac\\rm SS_B\\sigma^2\\sim\\chi^2(b-1) \\ . \\]

\\(H_1\\) 成立时,检验统计量为

\\[F_A=\\frac\\rm SS_A/(a-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(a-1,(a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_A>F_\\alpha(a-1,(a-1)(b-1))\\right\\ \\ . \\]

\\(H_2\\) 成立时,检验统计量为

\\[F_B=\\frac\\rm SS_B/(b-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(b-1,(a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_B>F_\\alpha(b-1,(a-1)(b-1))\\right\\ \\ . \\]

无交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F_A=\\rm MS_A/\\rm MS_E\\\\ \\hline \\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\rm SS_B/(b-1) & F_B=\\rm MS_B/\\rm MS_E\\\\ \\hline \\text误差 & \\rm SS_E & (a-1)(b-1) & \\rm MS_E=\\rm SS_E/[(a-1)(b-1)] & \\\\ \\hline \\text总和 & \\rm SS_T & ab-1 & \\\\ \\hline \\endarray \\]

如果经过 \\(F_A\\) 检验,\\(H_1\\) 被拒绝,此时我们认为因素 \\(A\\)\\(a\\) 个水平效应 \\(\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\) 不全相同。如果我们希望进一步比较 \\(\\alpha_i\\) 的大小,这需要做 \\(H_0:\\alpha_i=\\alpha_k\\) 的假设检验,或者 \\(\\alpha_i-\\alpha_k\\) 的区间估计。

因为 \\(y_ij\\sim N\\left(\\mu+\\alpha_i+\\beta_j,\\sigma^2\\right)\\) ,利用 \\(\\sum_j=1^b\\beta_j=0\\) 可知

\\[\\bary_i\\vdot\\sim N(\\mu+\\alpha_i,\\frac\\sigma^2b) \\ , \\quad i=1,2,\\cdots,a \\ . \\]

于是有

\\[\\bary_i\\cdot-\\bary_k\\cdot\\sim N(\\alpha_i-\\alpha_k,\\frac2\\sigma^2b) \\ . \\]

注意到 \\(\\sigma^2\\) 的无偏估计为

\\[\\hat\\sigma^2=\\frac\\rm SS_E(a-1)(b-1) \\ , \\]

\\(\\hat\\sigma^2\\)\\(\\bary_i\\cdot-\\bary_k\\cdot\\) 相互独立,因此对固定的 \\(i,k\\) ,假设 \\(H_0:\\alpha_i=\\alpha_k\\) 的检验统计量为

\\[t_ik=\\frac\\sqrtb\\left(\\bary_i\\cdot-\\bary_k\\cdot\\right)\\sqrt2\\hat\\sigma\\stackrelH_0\\sim t((a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\|t_ik|>t_\\alpha/2((a-1)(b-1))\\right\\ \\ . \\]

考虑区间估计,\\(\\alpha_i-\\alpha_k\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_i\\cdot-\\bary_k\\cdot-\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_i\\cdot-\\bary_k\\cdot+\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ . \\]

同理可得 \\(\\beta_j-\\beta_k\\)​ 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_\\cdot j-\\bary_\\cdot k-\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_\\cdot j-\\bary_\\cdot k+\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ . \\]

7.2.2 有交互效应的情形

若要考虑因素 \\(A\\)\\(B\\) 之间的交互作用 \\(A \\times B\\) 时,则需要在各水平组合下做重复试验才有效果。设每种组合下试验次数均为 \\(c(c>1)\\) ,此时对应的有交互效应的双因素方差分析模型即为

\\[\\left\\\\beginarrayl y_ijk=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ijk \\ , \\\\ \\\\ e_ijk\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\ \\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ , \\endarray\\right. \\quad \\beginarrayl i=1,2,\\cdots,a \\ , \\\\ \\\\ j=1,2,\\cdots,b \\ , \\\\ \\\\ k=1,2,\\cdots,c \\ , \\endarray \\tag7 \\]

在这样的模型下,\\(\\alpha_i\\) 并不能反映水平 \\(A_i\\) 的优劣,因为在交互效应存在的情况下,因子水平 \\(A_i\\) 的优劣还与因子 \\(B\\) 的水平有关系。此时,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\)\\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 都是没有实际意义的。因此,我们提出一个重要的检验问题是交互效应是否存在的检验,即检验

\\[H_3:\\gamma_ij=0 \\ , \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ . \\]

\\(H_3\\) 被接受,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\)\\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 才有意义。

引进记号:

\\[\\beginaligned &\\bary=\\frac1abc\\sum_i=1^a\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_ij\\cdot=\\frac1c\\sum_k=1^cy_ijk \\ , \\\\ \\\\ &\\bary_i\\cdot\\cdot=\\frac1bc\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_\\cdot j\\cdot=\\frac1ac\\sum_i=1^a\\sum_k=1^cy_ijk \\ . \\endaligned \\]

作平方和分解:

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot+\\bary_i\\cdot\\cdot-\\bary+\\bary_\\cdot j\\cdot-\\bary+\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2+bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2+ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\\\ &\\quad\\ +c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B+\\rm SS_A\\times B \\ . \\endaligned \\]

其中

\\[\\beginaligned &\\rm SS_E=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2 \\ , \\\\ \\\\ &\\rm SS_A=bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\ &\\rm SS_B=ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\ &\\rm SS_A\\times B=c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\ . \\endaligned \\]

我们将 \\(\\rm SS_E\\) 称为误差平方和,\\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,\\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和,\\(\\rm SS_A\\times B\\) 称为交互作用的平方和。

类似于以前的讨论,可以证明当 \\(H_3\\) 成立时,

\\[F_A\\times B=\\frac\\rm SS_A\\times B/[(a-1)(b-1)]\\rm SS_E/[ab(c-1)]\\stackrelH_3\\sim F((a-1)(b-1),ab(c-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_A\\times B>F_\\alpha((a-1)(b-1),ab(c-1))\\right\\ \\ . \\]

有交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\frac\\rm SS_A(a-1) & F_A=\\frac\\rm MS_A\\rm MS_E \\\\ \\hline \\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\frac\\rm SS_B(b-1) & F_B=\\frac\\rm MS_B\\rm MS_E \\\\ \\hline \\text交互效应A\\times B & \\rm SS_A\\times B & (a-1)(b-1) & \\rm MS_A\\times B=\\frac\\rm SS_A\\times B(a-1)(b-1) & F_A\\times B=\\frac\\rm MS_A\\times B\\rm MS_E \\\\ \\hline \\text误差 & \\rm SS_E & ab(c-1) & \\rm MS_E=\\frac\\rm SS_Eab(c-1) & \\\\ \\hline \\text总和 & \\rm SS_T & abc-1 & \\\\ \\hline \\endarray \\]

以上是关于方差分析和回归分析的异同是啥的主要内容,如果未能解决你的问题,请参考以下文章

请教用MATLAB如何做协方差模型分析

CDA Level 1 方差分析和一元线性回归分析

回归分析12:方差分析模型

偏最小二乘法的岭回归分析

SAS学习89(方差分析anova过程相关分析和回归分析corr过程reg过程多元线性回归stepwise)

SAS学习89(方差分析anova过程相关分析和回归分析corr过程reg过程多元线性回归stepwise)