摘要 本文通过描述性统计分析与单因素方差分析,分析国内外工厂某产品磨损老化实验数据,得出如下结论:四个工厂之间、国内外之间、国内各工厂之间均存在显著性差异;工厂A3与A4、A2与A4、A1与A3、A1与A2之间也存在显著性差异。即国内与国外,国内之间产品质量参差不齐。四个工厂之间,变化率均值由低到高分别是A4、A1、A3和A2,即可以认为国外产品质量最好,国内工厂乙质量最差。基于此,本文提出了加强质量监控与检测标准以提高国内工厂产品质量整体水平的建议。
有四种产品,分别来自国内甲、乙、丙三个工厂与国外同类产品,现从各厂分别取10,6,6和2个产品做300小时连续磨损老化检验,得到变化率。通过分析国内外产品质量,对国内外产品优化提出建议。
由图3-1可以得出:四个工厂产品变化率均值由低到高分别是A4、A1、A3和A2,即可以认为国外产品质量最好,国内工厂甲次之,其次是工厂丙,工厂乙质量最差。有箱线图可以看出,各个工厂生产的产品变化率差别较大,可能存在显著性差异。
进行单因素方差分析前,首先对数据的正态性与方差齐性进行检验,本文采用Shapiro检验和bartlett检验,具体检验结果如4-1所示。两个检验的P值均>0.05,即在显著性水平α=0.05 下都通过了显著性检验。
第三,对国内外产品的差异性进行检验。合并甲、乙、丙三个工厂的产品磨损数据,进而与国外工厂A4的数据进行单因素方差分析,分析结果如表4-3所示。由P值=0.0169<0.05可以得出,在显著性水平α=0.05 下拒绝原假设,即认为国内外的产品也存在显著性差异。
第五,对四个工厂的产品进行两两比较,进行进一步分析。分析结果如图4-1所示。六组中,只有A4-A1与A3-A2两组的95%置信区间包含0,因而认为只有这两组之间不存在显著性差异,其他四组之间均存在显著性差异。
综上所述,四个工厂之间、国内外之间、国内各工厂之间均存在显著性差异;工厂A3与A4、A2与A4、A1与A3、A1与A2之间存在显著性差异。即国内与国外,国内之间产品质量参差不齐。四个工厂之间,变化率均值由低到高分别是A4、A1、A3和A2,即可以认为国外产品质量最好,国内工厂乙质量最差。
Chapter 12:方差分析模型
7.1 单因素方差分析
7.1.1 单因素方差分析模型
考虑一般的单因素方差分析问题,称所考虑的因素为因素 \\(A\\) ,假设它有 \\(a\\) 个水平。方差分析的目的是比较这 \\(a\\) 个水平的差异。假定对第 \\(i\\) 个水平,可观测的指标 \\(y\\) 如下表所示:
\\[\\beginarray|c|c|c|
\\hline
\\textLevels & \\textPopulation Distibution & \\textSample Observations \\\\ \\hline
1 & N\\left(\\mu_1,\\sigma^2\\right) & y_11,y_12,\\cdots,y_1n_1 \\\\
2 & N\\left(\\mu_2,\\sigma^2\\right) & y_21,y_22,\\cdots,y_2n_2 \\\\
\\vdots & \\vdots & \\vdots \\\\
a & N\\left(\\mu_a,\\sigma^2\\right) & y_a1,y_12,\\cdots,y_an_a \\\\ \\hline
\\endarray
\\]
将其改写为如下形式:
\\[\\left\\\\beginarrayl
y_ij=\\mu_i+e_ij \\ , \\\\ \\\\
e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ ,
\\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag1
\\]
其中 \\(\\mu_i\\) 是第 \\(i\\) 个总体的均值,\\(e_ij\\) 是相应的试验误差,比较因素 \\(A\\) 的 \\(a\\) 个水平的差异归结为比较这 \\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 的差异。
首先定义如下的记号:
\\[\\mu=\\frac1n\\sum_i=1^an_i\\mu_i \\ , \\quad n=\\sum_i=1^an_i \\ , \\quad \\alpha_i=\\mu_i-\\mu \\ ,
\\]
这里 \\(\\mu\\) 为整个样本的均值的总平均,\\(\\alpha_i\\) 表示第 \\(i\\) 个水平下的均值与总平均的差异,反映了第 \\(i\\) 个水平对指标 \\(y\\) 的的效应。因此有
\\[\\sum_i=1^an_i\\alpha_i=\\sum_i=1^an_i(\\mu_i-\\mu)=n\\mu-n\\mu=0 \\ .
\\]
把 \\(\\mu_i=\\mu+\\alpha_i\\) 代入,模型 \\((1)\\) 可以改写为
\\[\\left\\\\beginarrayl
y_ij=\\mu+\\alpha_i+e_ij \\ , \\\\ \\\\
e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\\\\\
\\displaystyle\\sum_i=1^an_i\\alpha_i=0 \\ ,
\\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,n_i \\ , \\tag2
\\]
模型 \\((2)\\) 即为标准的单因素方差分析模型,写成矩阵形式即为
\\[\\left\\\\beginarrayl
Y=X\\beta+e \\ , \\\\ \\\\
e\\sim N\\left(0,\\sigma^2I_n\\right) \\ , \\\\ \\\\
h\'\\beta=0 \\ ,
\\endarray\\right. \\tag3
\\]
其中
\\[\\beginaligned
&Y=\\left(y_11,\\cdots,y_1n_1,y_21,\\cdots,y_2n_2,\\cdots,y_a1,\\cdots,y_an_a\\right)\' \\ , \\\\ \\\\
&\\beta=\\left(\\mu,\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\right)\' \\ , \\\\ \\\\
&e=\\left(e_11,\\cdots,e_1n_1,e_21,\\cdots,e_2n_2,\\cdots,e_a1,\\cdots,e_an_a\\right)\' \\ , \\\\ \\\\
&h=\\left(0,n_1,n_2,\\cdots,n_a\\right)\' \\ , \\\\ \\\\
\\endaligned
\\]
而设计矩阵为
\\[X=X_n \\times(a+1)=\\left[\\beginarrayccccc
1 & 1 \\\\
\\vdots & \\vdots \\\\
1 & 1 \\\\
1 & & 1 \\\\
\\vdots & & \\vdots \\\\
1 & & 1 \\\\
\\vdots & & & \\ddots \\\\
1 & & & & 1 \\\\
\\vdots & & & & \\vdots \\\\
1 & & & & 1 \\\\
\\endarray \\right] \\quad
\\beginarrayl
\\left\\\\beginarrayl
\\\\
n_1\\text lines \\\\
\\\\
\\endarray\\right. \\\\
\\left\\\\beginarrayl
\\\\
n_2\\text lines \\\\
\\\\
\\endarray\\right. \\\\
\\vdots \\\\
\\left\\\\beginarrayl
\\\\
n_a\\text lines \\\\
\\\\
\\endarray\\right.
\\endarray \\ .
\\]
可见,单因素方差分析模型是一个带约束条件 \\(h\'\\beta=0\\) 的线性模型,且如下两种检验等价
\\[H_0:\\mu_1=\\mu_2=\\cdots=\\mu_a \\quad \\iff \\quad H_0:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ .
\\]
若拒绝 \\(H_0\\) ,则说明因素 \\(A\\) 的各水平的效应之间有显著差异。
记所有样本的总平均值为
\\[\\bary=\\frac1n\\sum_i=1^a\\sum_j=1^n_iy_ij \\ .
\\]
定义统计量
\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\ ,
\\]
称 \\(\\rm SS_T\\) 为总离差平方和,简称为总平方和,它反映了全部试验数据之间的差异。
记第 \\(i\\) 水平下的样本均值为
\\[\\bary_i\\cdot=\\frac1n_i\\sum_j=1^n_iy_ij \\ .
\\]
因此
\\[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)=\\sum_j=1^n_iy_ij-n_i\\bary_i\\cdot=0 \\ .
\\]
对总离差平方和 \\(\\rm SS_T\\) 进行分解:
\\[\\beginaligned
\\rm SS_T&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot+\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)\\left(\\bary_i\\cdot-\\bary\\right)+\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2+2\\sum_i=1^a\\left(\\bary_i\\cdot-\\bary\\right)\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)+\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\\\ \\\\
&\\xlongequaldef\\rm SS_E+\\rm SS_A \\ .
\\endaligned
\\]
第一部分 \\(\\rm SS_E\\) 被称为误差平方和或组内平方和:
\\[\\rm SS_E=\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2 \\ .
\\]
它反映了随机误差的影响。因为对固定的第 \\(i\\) 水平,样本 \\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 来自同一个正态总体,所以它们之间的差异完全是由随机误差所致。
第二部分 \\(\\rm SS_A\\) 被称为效应平方和或组间平方和:
\\[\\rm SS_A=\\sum_i=1^a\\sum_j=1^n_i\\left(\\bary_i\\cdot-\\bary\\right)^2=\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary\\right)^2 \\ .
\\]
由于 \\(\\bary_i\\cdot\\) 是第 \\(i\\) 水平下的样本均值,是第 \\(i\\) 个正态总体的均值的估计,而 \\(\\bary\\) 是 \\(\\mu=\\frac1n\\sum_i=1^an_i\\mu_i\\) 的估计,因此 \\(\\rm SS_A\\) 是 \\(a\\) 个总体均值 \\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 之间的差异大学的一个度量。
平方和分解公式 \\(\\rm SS_T=\\rm SS_E+\\rm SS_A\\) ,将总离差平方和按其来源分解为两部分,一部分是由随机误差引起的误差平方和 \\(\\rm SS_E\\) ,另一部分是由因素 \\(A\\) 的各水平差异引起的效应平方和 \\(\\rm SS_A\\) 。
7.1.2 单因素方差分析检验统计量
由于对固定的 \\(i\\) ,\\(\\y_i1,y_i2,\\cdots,y_i,n_i\\\\) 均为来自 \\(N\\left(\\mu_i,\\sigma^2\\right)\\) 的样本,因此
\\[\\sum_j=1^n\\left(y_ij-\\bary_i\\cdot\\right)^2/\\sigma^2\\sim\\chi^2(n_i-1) \\ .
\\]
所以有
\\[\\rm E\\left(\\rm SS_E\\right)=\\sum_i=1^a\\rm E\\left[\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\right]=(n-a)\\sigma^2 \\ .
\\]
这说明 \\(\\rm SS_E/(n-a)\\) 是 \\(\\sigma^2\\) 的一个无偏估计。
另一方面
\\[\\beginaligned
\\rm E\\left(\\rm SS_A\\right)&=\\rm E\\left[\\sum_i=1^an_i\\left(\\bary_i\\cdot-\\bary-\\alpha_i+\\alpha_i\\right)^2\\right] \\\\ \\\\
&=\\sum_i=1^an_i\\left[\\rm E\\left(\\bary_i\\cdot-\\bary-\\alpha_i\\right)^2+\\alpha_i^2\\right] \\\\ \\\\
&=\\sum_i=1^an_i\\left(\\frac\\sigma^2n_i-\\frac\\sigma^2n\\right)+\\sum_i=1^an_i\\alpha_i^2 \\\\ \\\\
&=(a-1)\\sigma^2+\\sum_i=1^an_i\\alpha_i^2 \\ .
\\endaligned
\\]
所以有
\\[\\rm E\\bigg[\\rm SS_A/(a-1)\\bigg]=\\sigma^2+\\sum_i=1^an_i\\alpha_i^2\\big/(a-1) \\ .
\\]
可以看出,\\(\\rm SS_A/(a-1)\\) 反映了各水平效应的影响。若 \\(H_0\\) 为真,则 \\(\\rm SS_A/(a-1)\\) 是 \\(\\sigma^2\\) 的无偏估计。因此,若 \\(H_0\\) 为真,则定义
\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a) \\ ,
\\]
此时 \\(F\\) 统计量应接近于 \\(1\\) 。若 \\(H_0\\) 不为真,则 \\(F\\) 有变大的趋势。
由样本 \\(\\y_ij\\\\) 的独立性可知
\\[\\frac\\rm SS_E\\sigma^2=\\frac\\sum_i=1^a\\sum_j=1^n_i\\left(y_ij-\\bary_i\\cdot\\right)^2\\sigma^2\\sim\\chi^2(n-a) \\ .
\\]
若 \\(H_0\\) 为真,则样本 \\(\\y_ij\\\\) 是独立同分布序列,且服从 \\(N(\\mu,\\sigma^2)\\) ,所以
\\[\\frac\\rm SS_T\\sigma^2\\sim \\chi^2(n-1) \\ .
\\]
为了推导检验统计量在 \\(H_0\\) 为真时的分布,我们把 \\(\\rm SS_T,\\,\\rm SS_E\\) 和 \\(\\rm SS_A\\) 都写成正态随机向量的二次型的形式,即
\\[Y=\\left(y_11,y_12,\\cdots,y_1n_1,\\cdots,y_a1,y_a2,\\cdots,y_an_a\\right)\' \\ .
\\]
若 \\(H_0\\) 为真,则
\\[Y\\sim N\\left(\\mu\\boldsymbol1_n,\\sigma^2I_n\\right) \\ , \\quad \\fracY\\sigma\\sim N(\\frac\\mu\\sigma\\boldsymbol1_n,I_n) \\ .
\\]
于是
\\[\\beginaligned
&\\rm SS_T=Y\'\\left(I_n-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'CY \\ , \\\\ \\\\
&\\rm SS_E=Y\'\\left(I_n-\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)\\right)Y\\equiv Y\'C_1Y \\ , \\\\ \\\\
&\\rm SS_A=Y\'\\left(\\rm diag\\left(\\frac1n_1\\boldsymbol 1_n_1\\boldsymbol 1_n_1\'\\cdots,\\frac1n_a\\boldsymbol 1_n_a\\boldsymbol 1_n_a\'\\right)-\\frac1n\\boldsymbol 1_n\\boldsymbol 1_n\'\\right)Y\\equiv Y\'C_2Y \\ .
\\endaligned
\\]
现已知:
- \\(C=C_1+C_2\\) ;
- \\(C_2\\) 为非负定矩阵(因为它是对称幂等矩阵,特征根非 \\(0\\) 即 \\(1\\) );
- \\(\\rm SS_E/\\sigma^2\\sim\\chi^2(n-a)\\) ;
- 若 \\(H_0\\) 为真,则 \\(\\rm SS_T/\\sigma^2\\sim\\chi^2(n-1)\\) ;
则根据定理 2.4.4 ,若 \\(H_0\\) 为真,则有
\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1,\\lambda_2) \\ .
\\]
经计算得非中心参数
\\[\\lambda_2=\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)\'C_2\\left(\\frac\\mu\\sigma\\boldsymbol 1_n\\right)=0 \\ ,
\\]
所以
\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ .
\\]
且有 \\(\\rm SS_A\\) 与 \\(\\rm SS_E\\) 相互独立。所以 \\(F\\) 统计量可以作为 \\(H_0\\) 为真的检验统计量:
\\[F=\\frac\\rm SS_A/(a-1)\\rm SS_E/(n-a)\\sim F(a-1,n-a) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\F>F_\\alpha(a-1,n-a)\\right\\ \\ .
\\]
单因素方差分析的计算过程可以表示为如下的方差分析表:
\\[\\beginarray|c|c|c|c|c|
\\hline
\\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline
\\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F=\\rm MS_A/\\rm MS_E\\\\ \\hline
\\text误差 & \\rm SS_E & n-a & \\rm MS_E=\\rm SS_E/(n-a) & \\\\ \\hline
\\text总和 & \\rm SS_T & n-1 & \\\\ \\hline
\\endarray
\\]
7.1.3 区间估计与假设检验
如果 \\(F\\) 检验的结论是拒绝原假设,则表明从现有数据看,我们有理由认为因素 \\(A\\) 的 \\(a\\) 个水平效应之间有显著的差异,也就是说,\\(\\mu_1,\\mu_2,\\cdots,\\mu_a\\) 不完全相同。此时,我们需要对每一对 \\(\\mu_i\\) 和 \\(\\mu_j\\) 之间的差异程度作出估计。这就等价于对效应之差 \\(\\mu_i-\\mu_j\\) 作区间估计,或者对 \\(H_0:\\mu_i=\\mu_j\\) 进行假设检验。
不难看出
\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim N(0,1) \\ .
\\]
记 \\(\\hat\\sigma^2=\\rm SS_E/(n-a)\\) ,所以有
\\[\\frac(n-a)\\hat\\sigma^2\\sigma^2=\\frac\\rm SS_E\\sigma^2\\sim\\chi^2(n-a) \\ ,
\\]
且 \\(\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)\\) 与 \\(\\rm SS_E\\) 相互独立,所以有
\\[\\frac\\left(\\bary_i\\cdot-\\bary_j\\cdot\\right)-\\left(\\mu_i-\\mu_j\\right)\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ .
\\]
因此在 \\(H_0:\\mu_i=\\mu_j\\) 成立时,检验统计量
\\[t_ij=\\frac\\bary_i\\cdot-\\bary_j\\cdot\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_j\\sim t(n-a) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\|t_ij|>t_\\alpha/2(n-a)\\right\\ \\ .
\\]
如果用区间估计的方法进行假设检验,则 \\(\\mu_i-\\mu_j\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为
\\[\\left(\\bary_i\\cdot-\\bary_j\\cdot-\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a),\\bary_i\\cdot-\\bary_j\\cdot+\\hat\\sigma\\sqrt\\cfrac1n_i+\\cfrac1n_jt_\\alpha/2(n-a)\\right) \\ .
\\]
如果这个区间包含 \\(0\\) ,则表明我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 与 \\(\\mu_j\\) 没有显著差异;如果整个区间落在 \\(0\\) 的左边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 小于 \\(\\mu_j\\) ;如果整个区间落在 \\(0\\) 的右边,则我们可以以概率 \\(1-\\alpha\\) 断言 \\(\\mu_i\\) 大于 \\(\\mu_j\\) 。
7.2 两因素方差分析
7.2.1 无交互效应的情形
考虑一般的两因素试验问题,将这两个因素分别记为 \\(A\\) 和 \\(B\\) ,假定因素 \\(A\\) 有 \\(a\\) 个不同的水平,因素 \\(B\\) 有 \\(b\\) 个不同的水平,分别记为 \\(A_1,A_2,\\cdots,A_a\\) 和 \\(B_1,B_2,\\cdots,B_b\\) 。
这里我们只考虑在因素 \\(A\\) 和 \\(B\\) 的各个水平的组合下做 \\(1\\) 次试验的情形,即数据样本如下表所示:
\\[\\beginarray|c|c|c|
\\hline
A_i\\backslash B_j & B_1 & B_2 & \\cdots & B_b\\\\ \\hline
A_1 & y_11 & y_12 & \\cdots & y_1b \\\\
A_2 & y_21 & y_22 & \\cdots & y_2b \\\\
\\vdots & \\vdots & \\vdots & & \\vdots \\\\
A_a &y_a1 & y_a2 & \\cdots & y_ab \\\\ \\hline
\\endarray
\\]
两因素方差分析模型可以写为
\\[\\left\\\\beginarrayl
y_ij=\\mu_ij+e_ij \\ , \\\\ \\\\
e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ ,
\\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag4
\\]
为进行统计分析,将 \\(\\mu_ij\\) 做适当的分解,即
\\[\\beginaligned
&\\mu=\\frac1ab\\sum_i=1^a\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_i\\cdot=\\frac1b\\sum_j=1^b\\mu_ij \\ , \\quad \\bar\\mu_\\cdot j=\\frac1a\\sum_i=1^a\\mu_ij \\ . \\\\ \\\\
&\\alpha_i=\\bar\\mu_i\\cdot-\\mu \\ , \\quad i=1,2,\\cdots,a \\ , \\\\ \\\\
&\\beta_j=\\bar\\mu_\\cdot j-\\mu \\ , \\quad j=1,2,\\cdots,b \\ , \\\\ \\\\
&\\gamma_ij=\\mu_ij-\\bar\\mu_i\\cdot-\\bar\\mu_\\cdot j+\\mu \\ ,
\\endaligned
\\]
其中 \\(\\mu\\) 为总平均,\\(\\alpha_i\\) 表示因素 \\(A\\) 的水平 \\(A_i\\) 的效应,\\(\\beta_j\\) 表示因素 \\(B\\) 的水平 \\(B_j\\) 的效应,\\(\\gamma_ij\\) 表示 \\(A_i\\) 和 \\(B_j\\) 的交互效应,可以写为
\\[\\gamma_ij=\\mu_ij-\\left(\\bar\\mu_i\\cdot-\\mu\\right)-\\left(\\bar\\mu_\\cdot j-\\mu\\right)-\\mu=\\left(\\bar\\mu_ij-\\mu\\right)-\\alpha_i-\\beta_j \\ ,
\\]
通常把因素 \\(A\\) 和 \\(B\\) 对试验指标的交互效应设想为某一因素的效应,记为 \\(A\\times B\\) 。不难验证
\\[\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ .
\\]
注意到 \\(\\mu_ij\\) 可以改写为 \\(\\mu_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij\\) ,因此模型 \\((4)\\) 可以写成
\\[\\left\\\\beginarrayl
y_ij=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ij \\ , \\\\ \\\\
e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\
\\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\
\\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ ,
\\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag5
\\]
事实上,交互效应的约束条件应该写成
\\[\\sum_j=1^b\\gamma_ij=0 \\ , \\quad \\forall i=1,2,\\cdots,a \\ ; \\quad \\sum_i=1^a\\gamma_ij=0 \\ , \\quad \\forall j=1,2,\\cdots,b \\ .
\\]
这里共有 \\(a+b-1\\) 个约束。
假设 \\(\\gamma_ij=0,\\,i=1,2,\\cdots,a,\\,j=1,2,\\cdots,b\\) ,即不存在交互效应,此时模型 \\((5)\\) 可写为
\\[\\left\\\\beginarrayl
y_ij=\\mu+\\alpha_i+\\beta_j+e_ij \\ , \\\\ \\\\
e_ij\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\
\\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ ,
\\endarray\\right. \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ , \\tag6
\\]
这就是无交互效应的两因素方差分析模型。我们的目的是考察因素 \\(A\\) 或 \\(B\\) 的各个水平对指标的影响有无显著差异,这归结为假设
\\[\\beginaligned
&H_1:\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0 \\ , \\\\
&H_2:\\beta_1=\\beta_2=\\cdots=\\beta_b=0 \\ .
\\endaligned
\\]
接下来我们推导以上两个假设的检验统计量。记
\\[\\bary=\\frac1ab\\sum_i=1^a\\sum_j=1^by_ij \\ , \\quad \\bary_i\\cdot=\\frac1b\\sum_j=1^by_ij \\ , \\quad \\bary_\\cdot j=\\frac1a\\sum_i=1^ay_ij \\ ,
\\]
定义全部试验数据的总离差平方和 \\(\\rm SS_T\\)
\\[\\rm SS_T=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary\\right)^2 \\ .
\\]
对其进行分解得
\\[\\beginaligned
\\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary+\\bary_i\\cdot-\\bary+\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^b\\left(y_ij-\\bary_i\\cdot-\\bary_\\cdot j+\\bary\\right)^2+\\sum_i=1^ab\\left(\\bary_i\\cdot-\\bary\\right)^2+\\sum_j=1^ba\\left(\\bary_\\cdot j-\\bary\\right)^2 \\\\ \\\\
&\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B \\ .
\\endaligned
\\]
其中,\\(\\rm SS_E\\) 反映了试验的随机误差的影响,称为误差平方和。将 \\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,将 \\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和。可以证明:
\\[\\frac\\rm SS_E\\sigma^2\\sim\\chi^2((a-1)(b-1)) \\ .
\\]
当 \\(H_1\\) 成立时,\\(\\rm SS_A/\\sigma^2\\) 与 \\(\\rm SS_E\\) 相互独立,且有
\\[\\frac\\rm SS_A\\sigma^2\\sim\\chi^2(a-1) \\ .
\\]
当 \\(H_2\\) 成立时,\\(\\rm SS_B/\\sigma^2\\) 与 \\(\\rm SS_E\\) 相互独立,且有
\\[\\frac\\rm SS_B\\sigma^2\\sim\\chi^2(b-1) \\ .
\\]
当 \\(H_1\\) 成立时,检验统计量为
\\[F_A=\\frac\\rm SS_A/(a-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(a-1,(a-1)(b-1)) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\F_A>F_\\alpha(a-1,(a-1)(b-1))\\right\\ \\ .
\\]
当 \\(H_2\\) 成立时,检验统计量为
\\[F_B=\\frac\\rm SS_B/(b-1)\\rm SS_E/[(a-1)(b-1)]\\sim F(b-1,(a-1)(b-1)) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\F_B>F_\\alpha(b-1,(a-1)(b-1))\\right\\ \\ .
\\]
无交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:
\\[\\beginarray|c|c|c|c|c|
\\hline
\\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline
\\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\rm SS_A/(a-1) & F_A=\\rm MS_A/\\rm MS_E\\\\ \\hline
\\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\rm SS_B/(b-1) & F_B=\\rm MS_B/\\rm MS_E\\\\ \\hline
\\text误差 & \\rm SS_E & (a-1)(b-1) & \\rm MS_E=\\rm SS_E/[(a-1)(b-1)] & \\\\ \\hline
\\text总和 & \\rm SS_T & ab-1 & \\\\ \\hline
\\endarray
\\]
如果经过 \\(F_A\\) 检验,\\(H_1\\) 被拒绝,此时我们认为因素 \\(A\\) 的 \\(a\\) 个水平效应 \\(\\alpha_1,\\alpha_2,\\cdots,\\alpha_a\\) 不全相同。如果我们希望进一步比较 \\(\\alpha_i\\) 的大小,这需要做 \\(H_0:\\alpha_i=\\alpha_k\\) 的假设检验,或者 \\(\\alpha_i-\\alpha_k\\) 的区间估计。
因为 \\(y_ij\\sim N\\left(\\mu+\\alpha_i+\\beta_j,\\sigma^2\\right)\\) ,利用 \\(\\sum_j=1^b\\beta_j=0\\) 可知
\\[\\bary_i\\vdot\\sim N(\\mu+\\alpha_i,\\frac\\sigma^2b) \\ , \\quad i=1,2,\\cdots,a \\ .
\\]
于是有
\\[\\bary_i\\cdot-\\bary_k\\cdot\\sim N(\\alpha_i-\\alpha_k,\\frac2\\sigma^2b) \\ .
\\]
注意到 \\(\\sigma^2\\) 的无偏估计为
\\[\\hat\\sigma^2=\\frac\\rm SS_E(a-1)(b-1) \\ ,
\\]
且 \\(\\hat\\sigma^2\\) 与 \\(\\bary_i\\cdot-\\bary_k\\cdot\\) 相互独立,因此对固定的 \\(i,k\\) ,假设 \\(H_0:\\alpha_i=\\alpha_k\\) 的检验统计量为
\\[t_ik=\\frac\\sqrtb\\left(\\bary_i\\cdot-\\bary_k\\cdot\\right)\\sqrt2\\hat\\sigma\\stackrelH_0\\sim t((a-1)(b-1)) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\|t_ik|>t_\\alpha/2((a-1)(b-1))\\right\\ \\ .
\\]
考虑区间估计,\\(\\alpha_i-\\alpha_k\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为
\\[\\left(\\bary_i\\cdot-\\bary_k\\cdot-\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_i\\cdot-\\bary_k\\cdot+\\sqrt\\frac 2b\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ .
\\]
同理可得 \\(\\beta_j-\\beta_k\\) 的置信水平为 \\(1-\\alpha\\) 的置信区间为
\\[\\left(\\bary_\\cdot j-\\bary_\\cdot k-\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1)),\\bary_\\cdot j-\\bary_\\cdot k+\\sqrt\\frac 2a\\hat\\sigma t_\\alpha/2((a-1)(b-1))\\right) \\ .
\\]
7.2.2 有交互效应的情形
若要考虑因素 \\(A\\) 和 \\(B\\) 之间的交互作用 \\(A \\times B\\) 时,则需要在各水平组合下做重复试验才有效果。设每种组合下试验次数均为 \\(c(c>1)\\) ,此时对应的有交互效应的双因素方差分析模型即为
\\[\\left\\\\beginarrayl
y_ijk=\\mu+\\alpha_i+\\beta_j+\\gamma_ij+e_ijk \\ , \\\\ \\\\
e_ijk\\stackrel\\rm i.i.d.\\sim N\\left(0,\\sigma^2\\right) \\ , \\\\ \\\\
\\displaystyle\\sum_i=1^a\\alpha_i=0 \\ , \\quad \\sum_j=1^b\\beta_j=0 \\ , \\\\ \\\\
\\displaystyle\\quad \\sum_i=1^a\\sum_j=1^b\\gamma_ij=0 \\ ,
\\endarray\\right. \\quad
\\beginarrayl
i=1,2,\\cdots,a \\ , \\\\ \\\\ j=1,2,\\cdots,b \\ , \\\\ \\\\ k=1,2,\\cdots,c \\ ,
\\endarray
\\tag7
\\]
在这样的模型下,\\(\\alpha_i\\) 并不能反映水平 \\(A_i\\) 的优劣,因为在交互效应存在的情况下,因子水平 \\(A_i\\) 的优劣还与因子 \\(B\\) 的水平有关系。此时,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\) 和 \\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 都是没有实际意义的。因此,我们提出一个重要的检验问题是交互效应是否存在的检验,即检验
\\[H_3:\\gamma_ij=0 \\ , \\quad i=1,2,\\cdots,a \\ , \\quad j=1,2,\\cdots,b \\ .
\\]
若 \\(H_3\\) 被接受,检验 \\(\\alpha_1=\\alpha_2=\\cdots=\\alpha_a=0\\) 和 \\(\\beta_1=\\beta_2=\\cdots=\\beta_b=0\\) 才有意义。
引进记号:
\\[\\beginaligned
&\\bary=\\frac1abc\\sum_i=1^a\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_ij\\cdot=\\frac1c\\sum_k=1^cy_ijk \\ , \\\\ \\\\
&\\bary_i\\cdot\\cdot=\\frac1bc\\sum_j=1^b\\sum_k=1^cy_ijk \\ , \\quad \\bary_\\cdot j\\cdot=\\frac1ac\\sum_i=1^a\\sum_k=1^cy_ijk \\ .
\\endaligned
\\]
作平方和分解:
\\[\\beginaligned
\\rm SS_T&=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot+\\bary_i\\cdot\\cdot-\\bary+\\bary_\\cdot j\\cdot-\\bary+\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\
&=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2+bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2+ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\\\
&\\quad\\ +c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\\\ \\\\
&\\xlongequaldef\\rm SS_E+\\rm SS_A+\\rm SS_B+\\rm SS_A\\times B \\ .
\\endaligned
\\]
其中
\\[\\beginaligned
&\\rm SS_E=\\sum_i=1^a\\sum_j=1^b\\sum_k=1^c\\left(y_ijk-\\bary_ij\\cdot\\right)^2 \\ , \\\\ \\\\
&\\rm SS_A=bc\\sum_i=1^a\\left(\\bary_i\\cdot\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\
&\\rm SS_B=ac\\sum_j=1^b\\left(\\bary_\\cdot j\\cdot-\\bary\\right)^2 \\ , \\\\ \\\\
&\\rm SS_A\\times B=c\\sum_i=1^a\\sum_j=1^b\\left(\\bary_ij\\cdot-\\bary_i\\cdot\\cdot-\\bary_\\cdot j\\cdot+\\bary\\right)^2 \\ .
\\endaligned
\\]
我们将 \\(\\rm SS_E\\) 称为误差平方和,\\(\\rm SS_A\\) 称为因素 \\(A\\) 的平方和,\\(\\rm SS_B\\) 称为因素 \\(B\\) 的平方和,\\(\\rm SS_A\\times B\\) 称为交互作用的平方和。
类似于以前的讨论,可以证明当 \\(H_3\\) 成立时,
\\[F_A\\times B=\\frac\\rm SS_A\\times B/[(a-1)(b-1)]\\rm SS_E/[ab(c-1)]\\stackrelH_3\\sim F((a-1)(b-1),ab(c-1)) \\ .
\\]
给定显著性水平 \\(\\alpha\\) ,假设检验的拒绝域为
\\[W=\\left\\F_A\\times B>F_\\alpha((a-1)(b-1),ab(c-1))\\right\\ \\ .
\\]
有交互效应的两因素方差分析的计算过程也可以表示为如下的方差分析表:
\\[\\beginarray|c|c|c|c|c|
\\hline
\\text方差来源 & \\text平方和 & \\text自由度 & \\text均方 & F\\text比 \\\\ \\hline
\\text因素A & \\rm SS_A & a-1 & \\rm MS_A=\\frac\\rm SS_A(a-1) & F_A=\\frac\\rm MS_A\\rm MS_E \\\\ \\hline
\\text因素B & \\rm SS_B & b-1 & \\rm MS_A=\\frac\\rm SS_B(b-1) & F_B=\\frac\\rm MS_B\\rm MS_E \\\\ \\hline
\\text交互效应A\\times B & \\rm SS_A\\times B & (a-1)(b-1) & \\rm MS_A\\times B=\\frac\\rm SS_A\\times B(a-1)(b-1) & F_A\\times B=\\frac\\rm MS_A\\times B\\rm MS_E \\\\ \\hline
\\text误差 & \\rm SS_E & ab(c-1) & \\rm MS_E=\\frac\\rm SS_Eab(c-1) & \\\\ \\hline
\\text总和 & \\rm SS_T & abc-1 & \\\\ \\hline
\\endarray
\\]