应用统计学方差分析

Posted 古月书斋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了应用统计学方差分析相关的知识,希望对你有一定的参考价值。

一、问题的提出

【例7-1】

三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )

 如果检验结果接受原假设,则样本数据表明三台设备的平均灌装时间没有显著差异,选择任何一家提供商的设备对生产时间没有显著影响;如果拒绝原假设,则样本数据表明设备不同平均灌装时间不同,为了提高灌装速度与效率,应倾向选择平均灌装时间少的设备提供商。

二、方差分析的原理

1、因子

因素又称因子,是在实验中或在抽样时发生变化的“量”通常用A、B、C、..表示。例7-1中的不同提供商的设备就是一个变化的因素,这个因素是对灌装10盒奶所需时间可能产生影响的因子。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分折是多田紊方差分析的最简单情形。

2、水平

因子在实验中的不同状态称作水平。如果因子A有r个不同状态,就称它有r个水平,可用表示。我们都针对因素的不同水平或水平的组合,进行实验或抽取样本,以便了解因子的影响。

3、交互影响

当方差分析的影响因子不唯一时,这些因子间是否独立、是否存在相互影响,是有必要注意的问题。如果因子间存在相互作用,我们称之为交互影响:如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,可以看成是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响单独分离开来。

4、方差分解

样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出因子水平不同的影响;组内方差则是纯随机影响。如果组间方差明显高于组内方差,说明因子对实验的结果存在显著的影响;反之,如果波动主要来自组内方差,则因子的影响就不明显。

5、F统计量

因子或因子间“交互作用”对观测结果的影响是否显著,关键要看分解方差在组间与组内的比较。为了消除独立变量个数对方差大小的影响,我们用独立变量个数除方差,得到均方差(Mean Square),作为不同来源方差比较的基础。引起方差的独立变量的个数,称作自由度。因此,检验因子影响是否显著的统计量是:

 F统计量越大,越说明组间方差是主要方差来源,因子影响是显著的;F越小,越说明随机方差是主要的方差来源,因子的影响不显著。

三、单因素方差分析

1、单因素条件下离差平方和的分解

单因素指的是因子唯→。为了检验该因子的不同水平下的总体均值是否有显著差异,我们可针对因子的不同水平进行试验或抽样;把因子处在不同水平上抽得的样本看作是来自不同总体的样本,然后检验这些不同总体的均值是否相等。设下表是在因子A的不同水平卞抽样的结果:


2、因素作用的显著性分析

 

3、单因素方差分析中的几个问题

方差分析需满足的假设条件:

(1)样本是独立的随机样本;
(2)各样本皆来自正态总体;
(3)总体方差具有齐性,即各总体方差相等。

另外,在实际问题中,各总体的样本容量可以抡也可以不等,分析过程和结论都不受影响。

方差分析将所有样本结合在一起,使数据数量增多,提高了分析结果的稳定性。但是,方差分析也存在自己的不足之处,比如:当检验结果是拒绝原假设时,我们认为各总体的均值不等,至于哪个总体均值大,哪个总体均值小,方差分析本身不能立即得出结论

 【例7-4】(同 【例7-1】)

三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )

  解答:

excel中,选择"方差分析-单因素方差分析"

选择$B$1:$D$7 

 

 SSA=8.67,SSE=9.555,r=3,n=6。因此,MSA=SSA/(r-1),MSE=SSE/(n-1)

F=MAS/MSE=6.950828.同时,P-value=1-F.DIST(F,r-1,r*(n-1),TRUE)=0.007307。

三、双因素方差分析

1、无交互作用下的方差分析

设A与B是可能对试验结果有影响的两个因素,相互独立,无交互作用。设在双因素各种水平的组合下进行试验或抽样,得数据结构如下表

 由于A、B两因子相互独立,以上数据从横向看它代表A在不同水平上试验的结果;从纵向看它又代表B在不同水乎上试验的结果,因此,同一批数据可以同时检验A、B两个因子的影响情况。

 

 SSA表示的是因素A的组间方差总和,SSB是因素B的组间方差总和,都是各因素在不同水平下各自均值差异引起的:SSE仍是组内方差部分,由随机误差产生。各个方差的自由度是:SST的自由度为nr-1SSA的自由度为r-1,SSB的自由度为n-l.SSE的自由度为nr-r-n+1= (r-1)(n-1)

 【例7-2】研究原料的三种不同产地与四种不同的生产工艺对某种化工产品纯度的影响,现针对各种组合进行一次试验,测得产品纯度数据如下:

试以0.05的显著性水平检验不同的原料产地、不同的生产工艺下产品纯度是否有显著差异。

解答:

 表中,差异源“行”表示产地,“列”表示工艺。从P-value大小可以看出:对于给出的0.05的显著性水平,“行”产地因素对纯度的影响不显著,而“列”工艺因素对纯度存在显著影响。

 【例7-5】

具体题目内容同 【例7-2】

解答:excel中,选择"方差分析-无重复双因素方差分析"

 

勾选“标志”表示第一行是变量名,而不是数据项。

表中,差异源“行”表示产地,“列”表示工艺。从P-value大小可以看出:对于给出的0.05的显著性水平,“行”产地因素对纯度的影响不显著,而“列”工艺因素对纯度存在显著影响。 

 

2、有交互作用的方差分析

当两个因素不一定独立,可能存在交互作用时,我们需要在各个因素水平组合下,进行重复试验,才能看交互影响是否真的存在;因此,此时方差分析的数据结构不同于无交互作用情形。设因素A与因素B每一对水平搭配下重复试验的次数都是m,得到试验数据结构如表7一7:

其中 

 

 

 

 【例7-3】为了分析光照因素A与噪音因素B对工人生产有无影响,光照效应与噪音效应有交互作用,在此两因素不同的水平组合下做试验,结果如表7-8(表中数据为产量):

 解答:

 表中,差异源的“样本”指的是B因素即噪音;“列”指的是A因素即光照。从上表可知:A光照对产量的影响不显著(P-value为0.71077,不宜拒绝原假设H01),B噪音对产量的影响显著(P-值为0.00093,拒绝原假设H02。交互影响对产量的影响显著〈相应的P-值为0.0002,拒绝原假设H03。)

【例7-6】

题目内容同【例7-3】

解答:excel中,选择"方差分析-可重复双因素方差分析"

 

“每一样本的行数3”表示 同一种条件重新实验的次数。

  表中,差异源的“样本”指的是B因素即噪音;“列”指的是A因素即光照。从上表可知:A光照对产量的影响不显著(P-value为0.71077,不宜拒绝原假设H01),B噪音对产量的影响显著(P-值为0.00093,拒绝原假设H02。交互影响对产量的影响显著〈相应的P-值为0.0002,拒绝原假设H03。)

以上是关于应用统计学方差分析的主要内容,如果未能解决你的问题,请参考以下文章

PCA 分析中的纯度分数低于预期

一元方差分析

应用统计学方差分析

应用统计学方差分析

应用统计学方差分析

统计学——单(双)因素方差分析