在线性回归分析中,若检验的结果为不显著,可能原因是啥
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在线性回归分析中,若检验的结果为不显著,可能原因是啥相关的知识,希望对你有一定的参考价值。
1、残差均方大。包括测量误差大,模型外有显著因子,误差自相关,或者真实不显著项未并入残差均方中。
2、共线性。方差膨胀因子太大。
3、该因子取值范围或波动范围太小,导致效应小。
4、模型外因子与该因子存在交互作用,把因子效应抵消。
5、该自变量因子存在测量误差,或记录与实际不符。
6、未做残差诊断,违反稳定,正态,独立,等方差假设,或有异常值未处理。
7、数据太少或抽样量太小,偶然性导致的。
8、手动计算错误。
扩展资料:
线性回归分析注意事项:
在应用相关和回归分析时,一般分为定性分析和定量分析两个阶段,其中定性分析虽然并不复杂,但也及其重要。通过定性分析,我们来判明分析的变量之间是否存在相互依存关系,而后才能转入定量分析。需要指出的是,不能不加分析地,将两个变量凑合在一起进行定量分析,这样往往会得出虚假相关的结论。
利用拟合的数学表达式所取得的回归方程,均是在一定范围内的有限资料计算得到的。理论上来说,其有效性只适用于该范围内,不适用于该范围外,即只适用于内插推算,不宜用作外推预测。
参考技术A说明这个变量与因变量本来就不相关。
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
相关含义:
线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。
不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
以上内容参考:百度百科-线性回归
回归分析07:假设检验与区间估计
Chapter 7:假设检验与区间估计(1)
4.1 一般线性假设
在第三章中,我们给出了基于 Gauss-Markov 假设下的线性回归模型的模型设定:
注意到,这里我们并没有对随机干扰项的分布加以限制。这一章开始,我们主要利用假设检验的方法,对所建立的回归方程是否刻画了因变量和自变量之间的真实依赖关系进行分析。
由于假设检验问题要求在原假设成立的条件下,所构造的检验统计量的分布是已知的,因此这里我们对随机干扰项施加正态性假设,即考虑正态线性回归模型:
首先关注一般线性假设问题 \\(H_0:A\\beta=b\\) ,这里 \\(A\\) 为 \\(m\\times(p+1)\\) 的矩阵,\\(b\\) 为 \\(m\\times1\\) 的常数向量。
利用最小二乘法,得到最小二乘估计量 \\(\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y\\) ,以及残差平方和
对线性回归模型施加线性假设 \\(H_0\\) ,根据第三章所学结论,得到约束最小二乘估计
以及相应的残差平方和
残差平方和反映了实际数据与模型的拟合程度,施加约束条件后,回归系数 \\(\\beta\\) 的搜索范围变小了,因而残差平方和就变大了,于是总有 \\({\\rm RSS}_H\\geq{\\rm RSS}\\) 。
若回归系数 \\(\\beta\\) 满足约束条件,则是否施加约束条件本质上是一样的,此时 \\({\\rm RSS}_H-{\\rm RSS}\\) 应该较小。同理可知,若回归系数 \\(\\beta\\) 不满足约束条件,此时 \\({\\rm RSS}_H-{\\rm RSS}\\) 应该较大。所以,当 \\({\\rm RSS}_H-{\\rm RSS}\\) 偏大到一定程度时,我们就有充分的理由拒绝原假设。
定理 4.1.1 (最小二乘法基本定理) :对于正态线性回归模型
(1) \\({\\rm RSS}/\\sigma^2\\sim\\chi^2(n-p-1)\\) ;
(2) 若假设 \\(H_0:A\\beta=b\\) 成立,则 \\(\\left({\\rm RSS}_H-{\\rm RSS}\\right)/\\sigma^2\\sim\\chi^2(m)\\) ,其中 \\(m\\) 为约束个数;
(3) \\({\\rm RSS}\\) 与 \\({\\rm RSS}_H-{\\rm RSS}\\) 相互独立;
(4) 若假设 \\(H_0:A\\beta=b\\) 成立,则
这里我们给出一种 \\(F_H\\) 统计量的解释:
- 分子 \\(\\left({\\rm RSS}_H-{\\rm RSS}\\right)/m\\) 表示每增加一个约束,残差平方和的平均变化量;
- 分母 \\({\\rm RSS}/(n-p-1)\\) 起正则化作用,用来消除分子 \\(\\left({\\rm RSS}_H-{\\rm RSS}\\right)/m\\) 的量纲。
这里 \\(F_H\\) 即可作为线性假设 \\(H_0:A\\beta=b\\) 的检验统计量,对于给定的显著性水平 \\(\\alpha\\) ,检验的拒绝域为
(1) 定理 3.2.4 已证。
(2) 根据定理 3.3.1 证明过程可知,
\\[\\|Y-X\\hat\\beta_H\\|^2= \\left\\|Y-X\\hat\\beta\\right\\|^2+\\left\\|X\\left(\\hat\\beta-\\hat\\beta_H\\right)\\right\\|^2 \\ , \\]即有
\\[{\\rm RSS}_H={\\rm RSS}+\\left(\\hat\\beta-\\hat\\beta_H\\right)\'X\'X\\left(\\hat\\beta-\\hat\\beta_H\\right) \\ . \\tag{1} \\]利用 \\(\\hat\\beta_H\\) 的表达式可得
\\[{\\rm RSS}_H-{\\rm RSS}=\\left(A\\hat\\beta-b\\right)\'\\left(A\\left(X\'X\\right)^{-1}A\'\\right)^{-1}\\left(A\\hat\\beta-b\\right) \\ . \\tag{2} \\]因为 \\(\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right)\\) ,根据定理 2.3.2 可知
\\[A\\hat\\beta-b\\sim N\\left(A\\beta-b,\\sigma^2A\\left(X\'X\\right)^{-1}A\'\\right) \\ . \\]若原假设 \\(H_0:A\\beta=b\\) 成立,则有
\\[A\\hat\\beta-b\\sim N\\left(0,\\sigma^2A\\left(X\'X\\right)^{-1}A\'\\right) \\ . \\]又因为约数个数 \\(m\\) 满足 \\({\\rm rank}(A)=m\\) ,根据定理 2.4.1 可知
\\[\\frac{{\\rm RSS}_H-{\\rm RSS}}{\\sigma^2}\\sim \\chi^2(m) \\ . \\](3) 注意到
\\[\\begin{aligned} A\\hat\\beta-b&=A\\left(X\'X\\right)^{-1}X\'\\left(X\\beta+e\\right)-b \\\\ \\\\ &=A\\left(X\'X\\right)^{-1}X\'e+(A\\beta-b) \\ , \\end{aligned} \\]代入 \\((2)\\) 式可得
\\[{\\rm RSS}_H-RSS\\xlongequal{def}e\'Me+2c\'e+\\Theta \\ , \\]其中
\\[\\begin{aligned} &M=X\\left(X\'X\\right)^{-1}A\'\\left(A\\left(X\'X\\right)^{-1}A\'\\right)^{-1}A\\left(X\'X\\right)^{-1}X\' \\ , \\\\ \\\\ &c\'=\\left(A\\beta-b\\right)\'\\left(A\\left(X\'X\\right)^{-1}A\'\\right)^{-1}A\\left(X\'X\\right)^{-1}X\' \\ , \\\\ \\\\ &\\Theta=\\left(A\\beta-b\\right)\'\\left(A\\left(X\'X\\right)^{-1}A\'\\right)^{-1}(A\\beta-b) \\ . \\end{aligned} \\]注意到 \\(\\Theta\\) 为非随机项,记 \\(N=I-X\\left(X\'X\\right)^{-1}X\'\\) ,且有 \\(X\'N=O\\) ,于是
\\[{\\rm RSS}=e\'\\left(I-X\\left(X\'X\\right)^{-1}X\'\\right)=e\'Ne \\ . \\]要证 \\({\\rm RSS}_H-{\\rm RSS}\\) 与 \\({\\rm RSS}\\) 相互独立,只需证 \\(e\'Me\\) 与 \\(c\'e\\) 都与 \\(e\'Ne\\) 相互独立。
因为 \\(e\\sim N\\left(0,\\sigma^2I\\right)\\) ,根据推论 2.4.10 和推论 2.4.11 可知,只需证
\\[M\\cdot\\sigma^2I\\cdot N=O \\ , \\quad c\'\\cdot\\sigma^2I\\cdot N=0 \\ . \\]由 \\(X\'N=O\\) 显然得证。
(4) 由以上三个结论可直接推出 \\(F_H\\) 的分布。
在实际计算过程中,\\({\\rm RSS}\\) 可通过下列公式计算:
而计算 \\({\\rm RSS}_H\\) 时可通过把约束条件 \\(A\\beta=b\\) 代入原来的模型,从而转化为一个无约束的模型,称之为约简模型,参考 \\({\\rm RSS}\\) 的计算公式进行计算。
同一模型检验问题:假设我们对因变量 \\(y\\) 和自变量 \\(x_1,x_2,\\cdots,x_p\\) 有两批观测数据,对第一批和第二批数据,分别有线性回归模型
其中,\\(e_{1},e_{2},\\cdots,e_{n_1+n_2}\\) 独立同分布服从 \\(N\\left(0,\\sigma^2\\right)\\) 。试检验这两批数据所反映的因变量与自变量之间的依赖关系是否一样,即检验
推导检验统计量,将两个模型写成矩阵形式:
将它们合并得到
检验问题可以写为
容易计算原模型的最小二乘估计和残差平方和为:
将约束条件 \\(\\beta_1=\\beta_2\\xlongequal{def}\\beta\\) 代入原模型,得到约简模型
计算得到约简模型的最小二乘估计和残差平方和为:
从而有
因此检验统计量为
在 \\(H_0\\) 成立的条件下,\\(F_H\\sim F(p+1,n_1+n_2-2p-2)\\) ,对于给定的显著性水平 \\(\\alpha\\) ,检验的拒绝域为
若拒绝原假设,即认为两批数据不是来自同一线性回归模型。否则,我们没有充分的理由拒绝原假设,即认为它们来自同一线性回归模型。
4.2 回归方程的显著性检验
所谓回归方程的显著性检验,指的是检验所有自变量的整体是否对因变量具有显著的预测作用,如果将正态线性回归模型写成样本回归模型的形式,即
则检验问题可以写为
若拒绝原假设,则认为至少存在一个自变量 \\(x_j\\) 对因变量 \\(y\\) 具有显著的预测作用。
容易发现,该假设问题是线性假设 \\(A\\beta=b\\) 的特例,即取
代入原模型得到约简模型
容易得到约简模型的最小二乘估计为 \\(\\tilde\\beta_0=\\bar{y}\\) ,以及相应的残差平方和为
可以发现,约简模型的残差平方和 \\({\\rm RSS}_H\\) 正是原模型的总平方和 \\({\\rm TSS}\\) ,这是因为约简模型中不包含任何自变量,残差平方和 \\({\\rm RSS}_H\\) 完全是由 \\(y_1,y_2,\\cdots,y_n\\) 的波动构成。
根据最小二乘法基本定理给出的检验统计量,则有
注意到 \\({\\rm rank}(A)=p\\) ,所以有
在 \\(H_0\\) 成立的条件下,\\(F_H\\sim F(p,n-p-1)\\) ,对于给定的显著性水平 \\(\\alpha\\) ,检验的拒绝域为
关于回归方程的显著性检验,我们可以给出检验统计量 \\(F_H\\) 的一种统计解释:
- 注意到约简模型的 \\({\\rm RSS}_H\\) 就是原模型中的总平方和 \\({\\rm TSS}\\) ,可以分解为 \\({\\rm TSS}={\\rm ESS}+{\\rm RSS}\\) 。
- 由于回归平方和 \\({\\rm ESS}\\) 反映了自变量对因变量总平方和的贡献,残差平方和 \\({\\rm RSS}\\) 反映了模型误差对因变量总平方和的贡献,因此检验统计量 \\(F_H\\) 是把自变量的平均贡献和模型误差的平均贡献进行比较。
- 当自变量的平均贡献显著大于模型误差的平均贡献时,我们有充分的理由相信回归模型的自变量对因变量是由显著的作用的,从而拒绝原假设。
我们也可以用方差分析表来表示这样的关系:
注意,以上的假设检验过程依赖于模型的正态性假设。若无正态性假设,我们需要在 \\(F\\) 统计量的大样本理论框架下完成假设检验,即需要求出 \\(F\\) 统计量的极限分布,然后利用极限分布来构造拒绝域。但有时这个要求无法被满足,另一种解决方案即为置换检验。
置换检验的思路如下:若因变量与自变量整体无显著的相依关系,则可以认为因变量观测值是随机散布的。由于 \\(F\\) 统计量可以用来度量因变量与自变量整体的相依关系,\\(F\\) 值越大,相依关系越显著。我们考虑以下问题:比目前观测到的 \\(F\\) 统计量的样本观测值还要大的可能性有多大?若这个可能性很小,我们就有理由拒绝因变量与自变量整体无显著相依关系的原假设。
置换检验的操作如下:对于原样本计算出原始的 \\(F\\) 值,然后对因变量的 \\(n\\) 个观测值的 \\(n!\\) 种全排列分别计算出 \\(n!\\) 个 \\(F\\) 值。计算这 \\(n!\\) 个 \\(F\\) 值中大于原始的 \\(F\\) 值的比例,并基于这一比例大小进行统计决策, 这就是置换检验。
4.3 回归系数的显著性检验
所谓回归系数的显著性检验,指的是对每个自变量逐一做显著性检验。由于回归方程的显著性检验是对回归模型的自变量进行的整体性检验,拒绝原假设仅意味着因变量 \\(y\\) 对自变量 \\(x_1,x_2,\\cdots,x_p\\) 整体有依赖关系,但并不能排除 \\(y\\) 不依赖于其中的某些自变量。因此我们需要对回归系数 \\(\\beta_j,\\,1\\leq j\\leq p\\) 进行显著性检验。考虑检验问题:
可以等价地写成线性假设 \\(H_j:A\\beta=b\\) ,其中
这里 \\(A\\) 的第 \\(j+1\\) 个元素为 \\(1\\) ,其余均为 \\(0\\) ,注意到 \\(m={\\rm rank}(A)=1\\) 。
根据最小二乘法基本定理给出的检验统计量,则有
其中 \\(c_{j+1,j+1}\\) 为 \\(\\left(X\'X\\right)^{-1}\\) 的第 \\(j+1\\) 个对角线元素,记
所以检验统计量 \\(F_H\\) 在假设 \\(H_j\\) 成立的条件下满足
给定显著性水平 \\(\\alpha\\) ,当 \\(F_H>F_\\alpha(1,n-p-1)\\) 时拒绝原假设 \\(H_j\\) ,否则接受 \\(H_j\\) 。
根据 \\(F\\) 分布与 \\(t\\) 分布的关系,检验统计量也可以取为
根据定理 3.2.4 可知 \\(\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right)\\) ,从而 \\(\\hat\\beta_i\\sim N\\left(\\beta_i,\\sigma^2c_{j+1,j+1}\\right)\\) ,在 \\(H_j\\) 成立的条件下有
又因为 \\({\\rm RSS}/\\sigma^2\\sim\\chi^2(n-p-1)\\) 且与 \\(\\hat\\beta_j\\) 相互独立,所以有
给定显著性水平 \\(\\alpha\\) ,当 \\(|t_j|>t_{\\alpha/2}(n-p-1)\\) 时拒绝原假设 \\(H_j\\) ,否则接受 \\(H_j\\) 。
和回归方程的显著性检验一样,在没有模型的正态性假设的情况下,我们可以用大样本性质推导 \\(t\\) 分布的极限分布,从而计算检验的拒绝域。同理,我们也可以做回归系数的置换检验,检验因变量 \\(y\\) 和某个自变量 \\(x_j\\) 是否有显著的相依关系。
4.4 其它线性假设的检验
这里我们主要介绍几种最小二乘法基本定理的应用,也就是在 \\(A\\) 和 \\(b\\) 取不同值时的检验问题。为了方便说明这几种情况,我们以一个三元的回归模型为例,模型设定为
情况一:检验成对自变量。考虑假设检验问题为 \\(x_2\\) 和 \\(x_3\\) 是否至少有一个对因变量 \\(y\\) 有显著的相依关系,等价于检验 \\(H_0:\\beta_2=\\beta_3=0\\) 。于是,约简模型为
由最小二乘法基本定理,给定显著性水平 \\(\\alpha\\) ,检验的拒绝域为
情况二:检验回归参数的子空间。考虑假设检验问题为 \\(x_2\\) 和 \\(x_3\\) 是否对因变量 \\(y\\) 具有相同程度的相依关系,等价于检验 \\(H_0:\\beta_2=\\beta_3\\) 。于是,约简模型为
由最小二乘法基本定理,给定显著性水平 \\(\\alpha\\) ,检验的拒绝域为
情况三:检验回归参数取特殊值。考虑假设检验问题为 \\(x_3\\) 的系数是否为 \\(1\\) ,等价于检验 \\(H_0:\\beta_3=1\\) 于是,约简模型为
由最小二乘法基本定理,给定显著性水平 \\(\\alpha\\) ,检验的拒绝域为
类似的线性检验问题还有很多种不同的变形,在这里就不一列举了。
以上是关于在线性回归分析中,若检验的结果为不显著,可能原因是啥的主要内容,如果未能解决你的问题,请参考以下文章