回归分析12:方差分析模型

Posted 这个XD很懒

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了回归分析12:方差分析模型相关的知识,希望对你有一定的参考价值。

Chapter 12:方差分析模型

7.1 单因素方差分析

7.1.1 单因素方差分析模型

考虑一般的单因素方差分析问题,称所考虑的因素为因素 \\(A\\) ,假设它有 \\(a\\) 个水平。方差分析的目的是比较这 \\(a\\) 个水平的差异。假定对第 \\(i\\) 个水平,可观测的指标 \\(y\\) 如下表所示:

\\[\\beginarray|c|c|c| \\hline \\textLevels & \\textPopulation Distibution & \\textSample Observations \\\\ \\hline 1 & N\\left(\\mu_1,\\sigma^2\\right) & y_11,y_12,\\cdots,y_1n_1 \\\\ 2 & N\\left(\\mu_2,\\sigma^2\\right) & y_21,y_22,\\cdots,y_2n_2 \\\\ \\vdots & \\vdots & \\vdots \\\\ a & N\\left(\\mu_a,\\sigma^2\\right) & y_a1,y_12,\\cdots,y_an_a \\\\ \\hline \\endarray \\]

将其改写为如下形式:

\\[\\left\\\\beginarrayl y_ij=\\mu_i+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag1 \\]

其中 \\(\\mu_i\\) 是第 \\(i\\) 个总体的均值,\\(e_ij\\) 是相应的试验误差,比较因素 \\(A\\)\\(a\\) 个水平的差异归结为比较这 \\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 的差异。

首先定义如下的记号:

\\[\\mu=\\frac1n\\sum_i=1^an_i\\mu_i \\ , \\quad n=\\sum_i=1^an_i \\ , \\quad \\alpha_i=\\mu_i-\\mu \\ , \\]

这里 \\(\\mu\\) 为整个样本的均值的总平均,\\(\\alpha_i\\) 表示第 \\(i\\) 个水平下的均值与总平均的差异,反映了第 \\(i\\) 个水平对指标 \\(y\\) 的的效应。因此有

\\[\\sum_i=1^an_i\\alpha_i=\\sum_i=1^an_i(\\mu_i-\\mu)=n\\mu-n\\mu=0 \\ . \\]

\\(\\mu_i=\\mu+\\alpha_i\\) 代入,模型 \\((1)\\) 可以改写为

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\\\\\ \\displaystyle\\sum_i=1^an_i\\alpha_i=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag2 \\]

模型 \\((2)\\) 即为标准的单因素方差分析模型,写成矩阵形式即为

\\[\\left\\\\beginarrayl Y=X\\beta+e \\ , \\\\ \\\\ e\\sim N\\left(0,\\sigma^2I_n\\right) \\ , \\\\ \\\\ h\'\\beta=0 \\ , \\endarray\\right. \\tag3 \\]

其中

\\[\\beginaligned &Y=\\left(y_11,\\cdots,y_1n_1,y_21,\\cdots,y_2n_2,\\cdots,y_a1,\\cdots,y_an_a\\right)\' \\ , \\\\ \\\\ &\\beta=\\left(\\mu,\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\right)\' \\ , \\\\ \\\\ &e=\\left(e_11,\\cdots,e_1n_1,e_21,\\cdots,e_2n_2,\\cdots,e_a1,\\cdots,e_an_a\\right)\' \\ , \\\\ \\\\ &h=\\left(0,n_1,n_2,\\cdots,n_a\\right)\' \\ , \\\\ \\\\ \\endaligned \\]

而设计矩阵为

\\[X=X_n \\times(a+1)=\\left[\\beginarrayccccc 1 & 1 \\\\ \\vdots & \\vdots \\\\ 1 & 1 \\\\ 1 & & 1 \\\\ \\vdots & & \\vdots \\\\ 1 & & 1 \\\\ \\vdots & & & \\ddots \\\\ 1 & & & & 1 \\\\ \\vdots & & & & \\vdots \\\\ 1 & & & & 1 \\\\ \\endarray \\right] \\quad \\beginarrayl \\left\\\\beginarrayl \\\\ n_1\\text lines \\\\ \\\\ \\endarray\\right. \\\\ \\left\\\\beginarrayl \\\\ n_2\\text lines \\\\ \\\\ \\endarray\\right. \\\\ \\vdots \\\\ \\left\\\\beginarrayl \\\\ n_a\\text lines \\\\ \\\\ \\endarray\\right. \\endarray \\ . \\]

可见,单因素方差分析模型是一个带约束条件 \\(h\'\\beta=0\\) 的线性模型,且如下两种检验等价

\\[H_0:\\mu_1=\\mu_2=\\cdots=\\mu_a \\quad \\iff \\quad H_0:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ . \\]

若拒绝 \\(H_0\\) ,则说明因素 \\(A\\) 的各水平的效应之间有显著差异。

记所有样本的总平均值为

\\[\\bary=\\frac1n\\sum_i=1^a\\sum_j=1^n_iy_ij \\ . \\]

定义统计量

\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\ , \\]

\\(\\rm SS_T\\) 为总离差平方和,简称为总平方和,它反映了全部试验数据之间的差异。

记第 \\(i\\) 水平下的样本均值为

\\[\\bary_i\\cdot=\\frac1n_i\\sum_j=1^n_iy_ij \\ . \\]

因此

\\[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)=\\sum_j=1^n_iy_ij-n_i\\bary_i\\cdot=0 \\ . \\]

对总离差平方和 \\(\\rm SS_T\\) 进行分解:

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot+\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)\\left(\\bary_i\\cdot-\\bary\\right)+\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\left(\\bary_i\\cdot-\\bary\\right)\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)+\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A \\ . \\endaligned \\]

第一部分 \\(\\rm SS_E\\) 被称为误差平方和或组内平方和:

\\[\\rm SS_E=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2 \\ . \\]

它反映了随机误差的影响。因为对固定的第 \\(i\\) 水平,样本 \\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 来自同一个正态总体,所以它们之间的差异完全是由随机误差所致。

第二部分 \\(\\rm SS_A\\) 被称为效应平方和或组间平方和:

\\[\\rm SS_A=\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2=\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\ . \\]

由于 \\(\\bary_i\\cdot\\) 是第 \\(i\\) 水平下的样本均值,是第 \\(i\\) 个正态总体的均值的估计,而 \\(\\bary\\)\\(\\mu=\\frac1n\\sum_i=1^an_i\\mu_i\\) 的估计,因此 \\(\\rm SS_A\\)\\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 之间的差异大学的一个度量。

平方和分解公式 \\(\\rm SS_T=\\rm SS_E+\\rm SS_A\\) ,将总离差平方和按其来源分解为两部分,一部分是由随机误差引起的误差平方和 \\(\\rm SS_E\\) ,另一部分是由因素 \\(A\\) 的各水平差异引起的效应平方和 \\(\\rm SS_A\\)

7.1.2 单因素方差分析检验统计量

由于对固定的 \\(i\\)\\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 均为来自 \\(N\\left(\\mu_i,\\sigma^2\\right)\\) 的样本,因此

\\[\\sum_j=1^n\\left(y_ij-\\bary_i\\cdot\\right)^2/\\sigma^2\\sim\\chi^2(n_i-1) \\ . \\]

所以有

\\[\\rm E\\left(\\rm SS_E\\right)=\\sum_i=1^a\\rm E\\left[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\right]=(n-a)\\sigma^2 \\ . \\]

这说明 \\(\\rm SS_E/(n-a)\\)\\(\\sigma^2\\) 的一个无偏估计。

另一方面

\\[\\beginaligned \\rm E\\left(\\rm SS_A\\right)&=\\rm E\\left[\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary-\\alpha_i+\\alpha_i\\right)^2\\right] \\\\ \\\\ &=\\sum_i=1^an_i\\left[\\rm E\\left(\\bary_i\\cdot-\\bary-\\alpha_i\\right)^2+\\alpha_i^2\\right] \\\\ \\\\ &=\\sum_i=1^an_i\\left(\\frac\\sigma^2n_i-\\frac\\sigma^2n\\right)+\\sum_i=1^an_i\\alpha_i^2 \\\\ \\\\ &=(a-1)\\sigma^2+\\sum_i=1^an_i\\alpha_i^2 \\ . \\endaligned \\]

所以有

\\[\\rm E\\bigg[\\rm SS_A/(a-1)\\bigg]=\\sigma^2+\\sum_i=1^an_i\\alpha_i^2\\big/(a-1) \\ . \\]

可以看出,\\(\\rm SS_A/(a-1)\\) 反映了各水平效应的影响。若 \\(H_0\\) 为真,则 \\(\\rm SS_A/(a-1)\\)\\(\\sigma^2\\) 的无偏估计。因此,若 \\(H_0\\) 为真,则定义

\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a) \\ , \\]

此时 \\(F\\) 统计量应接近于 \\(1\\) 。若 \\(H_0\\) 不为真,则 \\(F\\) 有变大的趋势。

由样本 \\(\\y_ij\\\\) 的独立性可知

\\[\\frac\\rm SS_E\\sigma^2=\\frac\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\sigma^2\\sim\\chi^2(n-a) \\ . \\]

\\(H_0\\) 为真,则样本 \\(\\y_ij\\\\) 是独立同分布序列,且服从 \\(N(\\mu,\\sigma^2)\\) ,所以

\\[\\frac\\rm SS_T\\sigma^2\\sim \\chi^2(n-1) \\ . \\]

为了推导检验统计量在 \\(H_0\\) 为真时的分布,我们把 \\(\\rm SS_T,\\,\\rm SS_E\\)\\(\\rm SS_A\\) 都写成正态随机向量的二次型的形式,即

\\[Y=\\left(y_11,y_12,\\cdots,y_1n_1,\\cdots,y_a1,y_a2,\\cdots,y_an_a\\right)\' \\ . \\]

\\(H_0\\) 为真,则

\\[Y\\sim N\\left(\\mu\\boldsymbol1_n,\\sigma^2I_n\\right) \\ , \\quad \\fracY\\sigma\\sim N(\\frac\\mu\\sigma\\boldsymbol1_n,I_n) \\ . \\]

于是

\\[\\beginaligned &\\rm SS_T=Y\'\\left(I_n-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'CY \\ , \\\\ \\\\ &\\rm SS_E=Y\'\\left(I_n-\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)\\right)Y\\equiv Y\'C_1Y \\ , \\\\ \\\\ &\\rm SS_A=Y\'\\left(\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'C_2Y \\ . \\endaligned \\]

现已知:

  1. \\(C=C_1+C_2\\)
  2. \\(C_2\\) 为非负定矩阵(因为它是对称幂等矩阵,特征根非 \\(0\\)\\(1\\) );
  3. \\(\\rm SS_E/\\sigma^2\\sim\\chi^2(n-a)\\)
  4. \\(H_0\\) 为真,则 \\(\\rm SS_T/\\sigma^2\\sim\\chi^2(n-1)\\)

则根据定理 2.4.4 ,若 \\(H_0\\) 为真,则有

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1,\\lambda_2) \\ . \\]

经计算得非中心参数

\\[\\lambda_2=\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)\'C_2\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)=0 \\ , \\]

所以

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ . \\]

且有 \\(\\rm SS_A\\)\\(\\rm SS_E\\) 相互独立。所以 \\(F\\) 统计量可以作为 \\(H_0\\) 为真的检验统计量:

\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a)\\sim F(a-1,n-a) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F>F_\\alpha(a-1,n-a)\\right\\ \\ . \\]

单因素方差分析的计算过程可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F=\\rm MS_A/\\rm MS_E\\\\ \\hline \\text误差 & \\rm SS_E & n-a & \\rm MS_E=\\rm SS_E/(n-a) & \\\\ \\hline \\text总和 & \\rm SS_T & n-1 & \\\\ \\hline \\endarray \\]

7.1.3 区间估计与假设检验

如果 \\(F\\) 检验的结论是拒绝原假设,则表明从现有数据看,我们有理由认为因素 \\(A\\)\\(a\\) 个水平效应之间有显著的差异,也就是说,\\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 不完全相同。此时,我们需要对每一对 \\(\\mu_i\\)\\(\\mu_j\\) 之间的差异程度作出估计。这就等价于对效应之差 \\(\\mu_i-\\mu_j\\) 作区间估计,或者对 \\(H_0:\\mu_i=\\mu_j\\) 进行假设检验。

不难看出

\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim N(0,1) \\ . \\]

\\(\\hat\\sigma^2=\\rm SS_E/(n-a)\\) ,所以有

\\[\\frac(n-a)\\hat\\sigma^2\\sigma^2=\\frac\\rm SS_E\\sigma^2\\sim\\chi^2(n-a) \\ , \\]

\\(\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)\\)\\(\\rm SS_E\\) 相互独立,所以有

\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ . \\]

因此在 \\(H_0:\\mu_i=\\mu_j\\) 成立时,检验统计量

\\[t_ij=\\frac\\bary_i\\cdot-\\bary_j\\cdot\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\|t_ij|>t_\\alpha/2(n-a)\\right\\ \\ . \\]

如果用区间估计的方法进行假设检验,则 \\(\\mu_i-\\mu_j\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_i\\cdot-\\bary_j\\cdot-\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a),\\bary_i\\cdot-\\bary_j\\cdot+\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a)\\right) \\ . \\]

如果这个区间包含 \\(0\\) ,则表明我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\)\\(\\mu_j\\) 没有显著差异;如果整个区间落在 \\(0\\) 的左边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 小于 \\(\\mu_j\\)​ ;如果整个区间落在 \\(0\\) 的右边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 大于 \\(\\mu_j\\)

7.2 两因素方差分析

7.2.1 无交互效应的情形

考虑一般的两因素试验问题,将这两个因素分别记为 \\(A\\)\\(B\\) ,假定因素 \\(A\\)\\(a\\) 个不同的水平,因素 \\(B\\)\\(b\\) 个不同的水平,分别记为 \\(A_1,A_2,\\cdots,A_a\\)\\(B_1,B_2,\\cdots,B_b\\)

这里我们只考虑在因素 \\(A\\)\\(B\\) 的各个水平的组合下做 \\(1\\) 次试验的情形,即数据样本如下表所示:

\\[\\beginarray|c|c|c| \\hline A_i\\backslash B_j & B_1 & B_2 & \\cdots & B_b\\\\ \\hline A_1 & y_11 & y_12 & \\cdots & y_1b \\\\ A_2 & y_21 & y_22 & \\cdots & y_2b \\\\ \\vdots & \\vdots & \\vdots & & \\vdots \\\\ A_a &y_a1 & y_a2 & \\cdots & y_ab \\\\ \\hline \\endarray \\]

两因素方差分析模型可以写为

\\[\\left\\\\beginarrayl y_ij=\\mu_ij+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag4 \\]

为进行统计分析,将 \\(\\mu_ij\\) 做适当的分解,即

\\[\\beginaligned &\\mu=\\frac1ab\\sum_i=1^a\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_i\\cdot=\\frac1b\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_\\cdot j=\\frac1a\\sum_i=1^a\\mu_ij \\ . \\\\ \\\\ &\\alpha_i=\\bar\\mu_i\\cdot-\\mu \\ , \\quad i=1,2,\\cdots,a \\ , \\\\ \\\\ &\\beta_j=\\bar\\mu_\\cdot j-\\mu \\ , \\quad j=1,2,\\cdots,b \\ , \\\\ \\\\ &\\gamma_ij=\\mu_ij-\\bar\\mu_i\\cdot-\\bar\\mu_\\cdot j+\\mu \\ , \\endaligned \\]

其中 \\(\\mu\\) 为总平均,\\(\\alpha_i\\) 表示因素 \\(A\\) 的水平 \\(A_i\\) 的效应,\\(\\beta_j\\) 表示因素 \\(B\\) 的水平 \\(B_j\\) 的效应,\\(\\gamma_ij\\) 表示 \\(A_i\\)\\(B_j\\) 的交互效应,可以写为

\\[\\gamma_ij=\\mu_ij-\\left(\\bar\\mu_i\\cdot-\\mu\\right)-\\left(\\bar\\mu_\\cdot j-\\mu\\right)-\\mu=\\left(\\bar\\mu_ij-\\mu\\right)-\\alpha_i-\\beta_j \\ , \\]

通常把因素 \\(A\\)\\(B\\) 对试验指标的交互效应设想为某一因素的效应,记为 \\(A\\times B\\) 。不难验证

\\[\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ . \\]

注意到 \\(\\mu_ij\\) 可以改写为 \\(\\mu_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij\\) ,因此模型 \\((4)\\) 可以写成

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\ \\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag5 \\]

事实上,交互效应的约束条件应该写成

\\[\\sum_j=1^b\\gamma_ij=0 \\ , \\quad \\forall i=1,2,\\cdots,a \\ ; \\quad \\sum_i=1^a\\gamma_ij=0 \\ , \\quad \\forall j=1,2,\\cdots,b \\ . \\]

这里共有 \\(a+b-1\\) 个约束。

假设 \\(\\gamma_ij=0,\\,i=1,2,\\cdots,a,\\,j=1,2,\\cdots,b\\) ,即不存在交互效应,此时模型 \\((5)\\) 可写为

\\[\\left\\\\beginarrayl y_ij=\\mu+\\alpha_i+\\beta_j+e_ij \\ , \\\\ \\\\ e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag6 \\]

这就是无交互效应的两因素方差分析模型。我们的目的是考察因素 \\(A\\)\\(B\\) 的各个水平对指标的影响有无显著差异,这归结为假设

\\[\\beginaligned &H_1:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ , \\\\ &H_2:\\beta_1=\\beta_2=\\cdots=\\beta_b=0 \\ . \\endaligned \\]

接下来我们推导以上两个假设的检验统计量。记

\\[\\bary=\\frac1ab\\sum_i=1^a\\sum_j=1^by_ij \\ , \\quad \\bary_i\\cdot=\\frac1b\\sum_j=1^by_ij \\ , \\quad \\bary_\\cdot j=\\frac1a\\sum_i=1^ay_ij \\ , \\]

定义全部试验数据的总离差平方和 \\(\\rm SS_T\\)

\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary\\right)^2 \\ . \\]

对其进行分解得

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary+\\bary_i\\cdot-\\bary+\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary\\right)^2+\\sum_i=1^ab\\left(\\bary_i\\cdot-\\bary\\right)^2+\\sum_j=1^ba\\left(\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B \\ . \\endaligned \\]

其中,\\(\\rm SS_E\\) 反映了试验的随机误差的影响,称为误差平方和。将 \\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,将 \\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和。可以证明:

\\[\\frac\\rm SS_E\\sigma^2\\sim\\chi^2((a-1)(b-1)) \\ . \\]

\\(H_1\\) 成立时,\\(\\rm SS_A/\\sigma^2\\)\\(\\rm SS_E\\) 相互独立,且有

\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ . \\]

\\(H_2\\) 成立时,\\(\\rm SS_B/\\sigma^2\\)\\(\\rm SS_E\\) 相互独立,且有

\\[\\frac\\rm SS_B\\sigma^2\\sim\\chi^2(b-1) \\ . \\]

\\(H_1\\) 成立时,检验统计量为

\\[F_A=\\frac\\rm SS_A/(a-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(a-1,(a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_A>F_\\alpha(a-1,(a-1)(b-1))\\right\\ \\ . \\]

\\(H_2\\) 成立时,检验统计量为

\\[F_B=\\frac\\rm SS_B/(b-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(b-1,(a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_B>F_\\alpha(b-1,(a-1)(b-1))\\right\\ \\ . \\]

无交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F_A=\\rm MS_A/\\rm MS_E\\\\ \\hline \\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\rm SS_B/(b-1) & F_B=\\rm MS_B/\\rm MS_E\\\\ \\hline \\text误差 & \\rm SS_E & (a-1)(b-1) & \\rm MS_E=\\rm SS_E/[(a-1)(b-1)] & \\\\ \\hline \\text总和 & \\rm SS_T & ab-1 & \\\\ \\hline \\endarray \\]

如果经过 \\(F_A\\) 检验,\\(H_1\\) 被拒绝,此时我们认为因素 \\(A\\)\\(a\\) 个水平效应 \\(\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\) 不全相同。如果我们希望进一步比较 \\(\\alpha_i\\) 的大小,这需要做 \\(H_0:\\alpha_i=\\alpha_k\\) 的假设检验,或者 \\(\\alpha_i-\\alpha_k\\) 的区间估计。

因为 \\(y_ij\\sim N\\left(\\mu+\\alpha_i+\\beta_j,\\sigma^2\\right)\\) ,利用 \\(\\sum_j=1^b\\beta_j=0\\) 可知

\\[\\bary_i\\vdot\\sim N(\\mu+\\alpha_i,\\frac\\sigma^2b) \\ , \\quad i=1,2,\\cdots,a \\ . \\]

于是有

\\[\\bary_i\\cdot-\\bary_k\\cdot\\sim N(\\alpha_i-\\alpha_k,\\frac2\\sigma^2b) \\ . \\]

注意到 \\(\\sigma^2\\) 的无偏估计为

\\[\\hat\\sigma^2=\\frac\\rm SS_E(a-1)(b-1) \\ , \\]

\\(\\hat\\sigma^2\\)\\(\\bary_i\\cdot-\\bary_k\\cdot\\) 相互独立,因此对固定的 \\(i,k\\) ,假设 \\(H_0:\\alpha_i=\\alpha_k\\) 的检验统计量为

\\[t_ik=\\frac\\sqrtb\\left(\\bary_i\\cdot-\\bary_k\\cdot\\right)\\sqrt2\\hat\\sigma\\stackrelH_0\\sim t((a-1)(b-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\|t_ik|>t_\\alpha/2((a-1)(b-1))\\right\\ \\ . \\]

考虑区间估计,\\(\\alpha_i-\\alpha_k\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_i\\cdot-\\bary_k\\cdot-\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_i\\cdot-\\bary_k\\cdot+\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ . \\]

同理可得 \\(\\beta_j-\\beta_k\\)​ 的置信水平为 \\(1-\\alpha\\) 的置信区间为

\\[\\left(\\bary_\\cdot j-\\bary_\\cdot k-\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_\\cdot j-\\bary_\\cdot k+\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ . \\]

7.2.2 有交互效应的情形

若要考虑因素 \\(A\\)\\(B\\) 之间的交互作用 \\(A \\times B\\) 时,则需要在各水平组合下做重复试验才有效果。设每种组合下试验次数均为 \\(c(c>1)\\) ,此时对应的有交互效应的双因素方差分析模型即为

\\[\\left\\\\beginarrayl y_ijk=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ijk \\ , \\\\ \\\\ e_ijk\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\ \\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\ \\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ , \\endarray\\right. \\quad \\beginarrayl i=1,2,\\cdots,a \\ , \\\\ \\\\ j=1,2,\\cdots,b \\ , \\\\ \\\\ k=1,2,\\cdots,c \\ , \\endarray \\tag7 \\]

在这样的模型下,\\(\\alpha_i\\) 并不能反映水平 \\(A_i\\) 的优劣,因为在交互效应存在的情况下,因子水平 \\(A_i\\) 的优劣还与因子 \\(B\\) 的水平有关系。此时,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\)\\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 都是没有实际意义的。因此,我们提出一个重要的检验问题是交互效应是否存在的检验,即检验

\\[H_3:\\gamma_ij=0 \\ , \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ . \\]

\\(H_3\\) 被接受,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\)\\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 才有意义。

引进记号:

\\[\\beginaligned &\\bary=\\frac1abc\\sum_i=1^a\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_ij\\cdot=\\frac1c\\sum_k=1^cy_ijk \\ , \\\\ \\\\ &\\bary_i\\cdot\\cdot=\\frac1bc\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_\\cdot j\\cdot=\\frac1ac\\sum_i=1^a\\sum_k=1^cy_ijk \\ . \\endaligned \\]

作平方和分解:

\\[\\beginaligned \\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot+\\bary_i\\cdot\\cdot-\\bary+\\bary_\\cdot j\\cdot-\\bary+\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\ &=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2+bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2+ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\\\ &\\quad\\ +c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\ &\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B+\\rm SS_A\\times B \\ . \\endaligned \\]

其中

\\[\\beginaligned &\\rm SS_E=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2 \\ , \\\\ \\\\ &\\rm SS_A=bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\ &\\rm SS_B=ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\ &\\rm SS_A\\times B=c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\ . \\endaligned \\]

我们将 \\(\\rm SS_E\\) 称为误差平方和,\\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,\\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和,\\(\\rm SS_A\\times B\\) 称为交互作用的平方和。

类似于以前的讨论,可以证明当 \\(H_3\\) 成立时,

\\[F_A\\times B=\\frac\\rm SS_A\\times B/[(a-1)(b-1)]\\rm SS_E/[ab(c-1)]\\stackrelH_3\\sim F((a-1)(b-1),ab(c-1)) \\ . \\]

给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为

\\[W=\\left\\F_A\\times B>F_\\alpha((a-1)(b-1),ab(c-1))\\right\\ \\ . \\]

有交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:

\\[\\beginarray|c|c|c|c|c| \\hline \\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline \\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\frac\\rm SS_A(a-1) & F_A=\\frac\\rm MS_A\\rm MS_E \\\\ \\hline \\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\frac\\rm SS_B(b-1) & F_B=\\frac\\rm MS_B\\rm MS_E \\\\ \\hline \\text交互效应A\\times B & \\rm SS_A\\times B & (a-1)(b-1) & \\rm MS_A\\times B=\\frac\\rm SS_A\\times B(a-1)(b-1) & F_A\\times B=\\frac\\rm MS_A\\times B\\rm MS_E \\\\ \\hline \\text误差 & \\rm SS_E & ab(c-1) & \\rm MS_E=\\frac\\rm SS_Eab(c-1) & \\\\ \\hline \\text总和 & \\rm SS_T & abc-1 & \\\\ \\hline \\endarray \\]

以上是关于回归分析12:方差分析模型的主要内容,如果未能解决你的问题,请参考以下文章

使用回归模型(LM,LMER)重复测量方差分析

R语言使用回归模型解决单因素方差分析问题(ANOVA as regression)方差分析和回归都是同广义线性模型的特例因子转化为数值的过程中(分类变量编码为连续变量自定义设置contrast)

方差分析和回归分析的异同是啥

R语言对回归模型进行协方差分析

R语言回归模型构建回归模型基本假设(正态性线性独立性方差齐性)回归模型诊断car包诊断回归模型特殊观察样本分析数据变换模型比较特征筛选交叉验证预测变量相对重要度

R语言使用回归方法解决方差分析问题