回归分析03:回归参数的估计
Posted 这个XD很懒
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了回归分析03:回归参数的估计相关的知识,希望对你有一定的参考价值。
Chapter 3:回归参数的估计(1)
3.1 最小二乘估计
用 \\(y\\) 表示因变量,\\(x_1,x_2,\\cdots,x_p\\) 表示对 \\(y\\) 有影响的 \\(p\\) 个自变量。
-
总体回归模型:假设 \\(y\\) 和 \\(x_1,x_2,\\cdots,x_p\\) 之间满足如下线性关系式
\\[y=\\beta_0+\\beta_1 x_1+\\beta_2x_2+\\cdots+\\beta_px_p+e \\ , \\]其中 \\(e\\) 是随机误差,将 \\(\\beta_0\\) 称为回归常数,将 \\(\\beta_1,\\beta_1,\\cdots,\\beta_p\\) 称为回归系数。
-
总体回归函数:定量地刻画因变量的条件均值与自变量之间的相依关系,即
\\[{\\rm E}(y|x)=\\beta_0+\\beta_1 x_1+\\beta_2x_2+\\cdots+\\beta_px_p \\ , \\]回归分析的首要目标就是估计回归函数。
假定已有因变量 \\(y\\) 和自变量 \\(x_1,x_2,\\cdots,x_p\\) 的 \\(n\\) 组观测样本 \\(\\left(x_{i1},x_{i2},\\cdots,x_{ip}\\right),\\,i=1,2,\\cdots,n\\) 。
- 样本回归模型:样本观测值满足如下线性方程组
- Gauss-Markov 假设:随机误差项 \\(e_i,\\,i=1,2,\\cdots,n\\) 满足如下假设:
- 零均值:\\({\\rm E}(e_i)=0\\) ;
- 同方差:\\({\\rm Var}(e_i)=\\sigma^2\\) ;
- 不相关:\\({\\rm Cov}(e_i,e_j)=0 \\ , \\ \\ i\\neq j\\) 。
如果将样本回归模型中的线性方程组,用矩阵形式表示为
其中 \\(X\\) 称为设计矩阵。若将 Gauss-Markov 假设也用矩阵形式表示为
将矩阵方程和 Gauss-Markov 假设合写在一起,即可得到最基本的线性回归模型:
最小二乘估计:寻找一个 \\(\\beta\\) 的估计,使得误差向量 \\(e=Y-X\\beta\\) 的长度的平方达到最小。设
对 \\(\\beta\\) 求导,令其等于零,可得正规方程组
正规方程组有唯一解的充要条件是 \\({\\rm rank}\\left(X\'X\\right)=p+1\\) ,这等价于 \\({\\rm rank}(X)=p+1\\) ,即 \\(X\\) 是列满秩的。正规方程组的唯一解为
以上的讨论说明 \\(\\hat\\beta\\) 是 \\(Q(\\beta)\\) 的一个驻点,下面证明 \\(\\hat\\beta\\) 是 \\(Q(\\beta)\\) 的最小值点。
对任意的 \\(\\beta\\in\\mathbb{R}^{p+1}\\) ,有
\\[\\begin{aligned} \\|Y-X\\beta\\|^2&=\\left\\|Y-X\\hat\\beta+X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2 \\\\ \\\\ &=\\left\\|Y-X\\hat\\beta\\right\\|^2+\\left\\|X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2+2\\left(\\hat\\beta-\\beta\\right)\'X\'\\left(Y-X\\hat\\beta\\right) \\ . \\end{aligned} \\]因为 \\(\\hat\\beta\\) 满足正规方程组 \\(X\'X\\hat\\beta=X\'Y\\) ,所以 \\(X\'\\left(Y-X\\hat\\beta\\right)=0\\) ,所以对任意的 \\(\\beta\\in\\mathbb{R}^{p+1}\\) ,有
\\[\\begin{aligned} \\|Y-X\\beta\\|^2&=\\left\\|Y-X\\hat\\beta\\right\\|^2+\\left\\|X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2 \\ . \\end{aligned} \\]所以有
\\[Q(\\beta)=\\|Y-X\\beta\\|^2\\geq \\left\\|Y-X\\hat\\beta\\right\\|^2=Q\\left(\\hat\\beta\\right) \\ . \\]当且仅当 \\(\\beta=\\hat\\beta\\) 时等号成立。
我们将 \\(\\hat{Y}=X\\hat\\beta\\) 称为 \\(Y\\) 的拟合值向量或投影向量,注意到
我们将 \\(H=X\\left(X\'X\\right)^{-1}X\'\\) 称为帽子矩阵,它是自变量空间的投影矩阵,这里的自变量空间指的是矩阵 \\(X\\) 的列空间。此外,我们将 \\(\\hat{e}=Y-\\hat{Y}=(I-H)Y\\) 称为残差向量。
中心化模型:将原始数据进行中心化,令
将样本回归模型改写为
其中 \\(\\alpha=\\beta_0+\\beta_1\\bar{x}_1+\\beta_2\\bar{x}_2+\\cdots+\\beta_p\\bar{x}_p\\) 。定义设计矩阵为
将中心化模型写成矩阵形式:
其中 \\(\\beta=\\left(\\beta_1,\\beta_2,\\cdots,\\beta_p\\right)\'\\) 。注意到
因此正规方程组可以写为
解得回归参数的最小二乘估计为
标准化模型:将原始数据进行标准化,令
将样本回归模型改写为
令 \\(Z=(z_{ij})_{n\\times p}\\) ,将标准化模型写成矩阵形式:
解得回归参数的最小二乘估计为
这里矩阵 \\(Z\\) 具有如下性质:
其中 \\(r_{ij}\\) 为自变量 \\(x_i\\) 和 \\(x_j\\) 的样本相关系数,矩阵 \\(R\\) 是自变量的样本相关系数矩阵。
3.2 最小二乘估计的性质
设线性回归模型满足 Gauss-Markov 假设,即
下面我们来讨论最小二乘估计 \\(\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y\\) 的一些良好的性质。
定理 3.2.1:对于线性回归模型,最小二乘估计 \\(\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y\\) 具有下列性质:
(1) \\({\\rm E}\\left(\\hat\\beta\\right)=\\beta\\) 。
(2) \\({\\rm Cov}\\left(\\hat\\beta\\right)=\\sigma^2\\left(X\'X\\right)^{-1}\\) 。
(1) 因为 \\({\\rm E}(Y)=X\\beta\\) ,所以
\\[{\\rm E}\\left(\\hat\\beta\\right)=\\left(X\'X\\right)^{-1}X\'{\\rm E}(Y)=\\left(X\'X\\right)^{-1}X\'X\\beta=\\beta \\ . \\](2) 因为 \\({\\rm Cov}(Y)={\\rm Cov}(e)=\\sigma^2I_n\\) ,所以
\\[\\begin{aligned} {\\rm Cov}\\left(\\hat\\beta\\right)&={\\rm Cov}\\left(\\left(X\'X\\right)^{-1}X\'Y\\right) \\\\ \\\\ &=\\left(X\'X\\right)^{-1}X\'{\\rm Cov}(Y)X\\left(X\'X\\right)^{-1} \\\\ \\\\ &=\\left(X\'X\\right)^{-1}X\\sigma^2I_nX\\left(X\'X\\right)^{-1} \\\\ \\\\ &=\\sigma^2\\left(X\'X\\right)^{-1} \\ . \\end{aligned} \\]
推论 3.2.1:设 \\(c\\) 是 \\(p+1\\) 维常数向量,我们称 \\(c\'\\hat\\beta\\) 是 \\(c\'\\beta\\) 的最小二乘估计,具有下列性质:
(1) \\({\\rm E}\\left(c\'\\hat\\beta\\right)=c\'\\beta\\) 。
(2) \\({\\rm Cov}\\left(c\'\\hat\\beta\\right)=\\sigma^2c\'\\left(X\'X\\right)^{-1}c\\) 。
该推论说明,对任意的线性函数 \\(c\'\\beta\\) ,都有 \\(c\'\\hat\\beta\\) 是 \\(c\'\\beta\\) 的无偏估计,
定理 3.2.2 (Gauss-Markov):对于线性回归模型,在 \\(c\'\\beta\\) 的所有线性无偏估计中,最小二乘估计 \\(c\'\\hat\\beta\\) 是唯一的最小方差线性无偏估计 (best linear unbiased estimator, BLUE) 。
假设 \\(a\'Y\\) 是 \\(c\'\\beta\\) 的一个线性无偏估计,则对 \\(\\forall\\beta\\in\\mathbb{R}^{p+1}\\) ,都有
\\[{\\rm E}\\left(a\'Y\\right)=a\'X\\beta=c\'\\beta \\ . \\]所以 \\(a\'X=c\'\\) 。又因为
\\[\\begin{aligned} &{\\rm Var}(a\'Y)=\\sigma^2a\'a=\\sigma^2\\|a\\|^2 \\ , \\\\ \\\\ &{\\rm Var}\\left(c\'\\hat\\beta\\right)=\\sigma^2c\'\\left(X\'X\\right)^{-1}c \\ , \\end{aligned} \\]对 \\(\\|a\\|^2\\) 做分解有
\\[\\begin{aligned} \\|a\\|^2&=\\left\\|a-X\\left(X\'X\\right)^{-1}c+X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\\\ \\\\ &=\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 +2c\'\\left(X\'X\\right)^{-1}X\'\\left(a-X\\left(X\'X\\right)^{-1}c\\right) \\\\ \\\\ &=\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\ . \\end{aligned} \\]最后一个等号是因为
\\[\\begin{aligned} 2c\'\\left(X\'X\\right)^{-1}X\'\\left(a-X\\left(X\'X\\right)^{-1}c\\right)&=2c\'\\left(X\'X\\right)^{-1}\\left(X\'a-c\\right)=0 \\ . \\end{aligned} \\]代入 \\(a\'Y\\) 的方差,所以
\\[\\begin{aligned} {\\rm Var}\\left(a\'Y\\right)&=\\sigma^2\\|a\\|^2 \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\sigma^2\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\sigma^2c\'\\left(X\'X\\right)^{-1}X\'X\\left(X\'X\\right)^{-1}c \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+{\\rm Var}\\left(c\'\\hat\\beta\\right) \\\\ \\\\ &\\geq{\\rm Var}\\left(c\'\\hat\\beta\\right) \\ . \\end{aligned} \\]等号成立当且仅当 \\(\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|=0\\) ,即 \\(a=X\\left(X\'X\\right)^{-1}c\\) ,此时 \\(c\'Y=c\'\\hat\\beta\\) ,得证。
误差方差 \\(\\sigma^2\\) 反映了模型误差对因变量的影响大小,下面来估计 \\(\\sigma^2\\) 。
注意到误差向量 \\(e=Y-X\\beta\\) 是不可观测的,用 \\(\\hat\\beta\\) 代替 \\(\\beta\\) ,称
为残差向量。设 \\(x_i\'\\) 为设计矩阵 \\(X\\) 的第 \\(i\\) 行,则第 \\(i\\) 次观测的残差可以表示为
称 \\(\\hat{y}_i\\) 为第 \\(i\\) 次观测的拟合值,称 \\(\\hat{Y}\\) 为拟合值向量。
将 \\(\\hat{e}\\) 看作 \\(e\\) 的一个估计,定义残差平方和为
它从整体上反映了观测数据与回归直线的偏离程度。
定理 3.2.3:我们用 \\({\\rm RSS}\\) 来构造 \\(\\sigma^2\\) 的无偏估计量。
(a) \\({\\rm RSS}=Y\'\\left(I_n-X\\left(X\'X\\right)^{-1}X\'\\right)Y=Y\'\\left(I_n-H\\right)Y\\) ;
(b) 若定义 \\(\\sigma^2\\) 的估计量为
则 \\(\\hat\\sigma^2\\) 是 \\(\\sigma^2\\) 的无偏估计量。
(a) 引入帽子矩阵 \\(\\hat{Y}=HY\\) ,所以 \\(\\hat{e}=\\left(I_n-H\\right)Y\\) ,所以
\\[{\\rm RSS}=\\hat{e}\'\\hat{e}=Y\'(I_n-H)\'(I_n-H)Y=Y\'(I_n-H)Y \\ . \\](b) 把 \\(Y=X\\beta+e\\) 代入 \\({\\rm RSS}\\) 的表达式可得
\\[\\begin{aligned} {\\rm RSS}&=(X\\beta+e)\'(I_n-H)(X\\beta+e) \\\\ \\\\ &=\\beta\'X\'(I_n-H)X\\beta+e\'(I_n-H)e \\\\ \\\\ &=\\beta\'X\'X\\beta-\\beta\'X\'X(X\'X)^{-1}X\'X\\beta++e\'(I_n-H)e \\\\ \\\\ &=e\'(I_n-H)e \\ . \\end{aligned} \\]由定理 2.2.1 可知
\\[\\begin{aligned} {\\rm E}\\left({\\rm RSS}\\right)&={\\rm E}\\left[e\'(I_n-H)e\\right] \\\\ \\\\ &=0+{\\rm tr}\\left[(I_n-H)\\sigma^2I_n\\right] \\\\ \\\\ &=\\sigma^2(n-{\\rm tr}(H)) \\ . \\end{aligned} \\]根据对称幂等矩阵的秩与迹相等这一性质可得
\\[{\\rm tr}(H)={\\rm rank}(H)={\\rm rank}(X) \\ . \\]所以有
\\[{\\rm E}\\left({\\rm RSS}\\right)=\\sigma^2(n-{\\rm rank}(X)) \\ . \\]进而
\\[\\hat\\sigma^2=\\frac{\\rm RSS}{n-{\\rm rank}(X)} \\]是 \\(\\sigma^2\\) 的无偏估计量。
如果误差向量 \\(e\\) 服从正态分布,即 \\(e\\sim N_n\\left(0,\\sigma^2I_n\\right)\\) ,则可以得到 \\(\\hat\\beta\\) 和 \\(\\hat\\sigma^2\\) 的更多性质。
定理 3.2.4:对于线性回归模型,如果误差向量 \\(e\\sim N_n\\left(0,\\sigma^2I_n\\right)\\) ,则
(a) \\(\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right)\\) ;
(b) \\({\\rm RSS}/\\sigma^2\\sim\\chi^2(n-{\\rm rank}(X))\\) ;
(c) \\(\\hat\\beta\\) 与 \\({\\rm RSS}\\) 相互独立。
(a) 注意到
\\[\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y=\\left(X\'X\\right)^{-1}X\'(X\\beta+e)=\\beta+\\left(X\'X\\right)^{-1}X\'e \\ . \\]由定理 2.3.4 和定理 3.2.1 可得
\\[\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right) \\ . \\](b) 注意到
\\[\\begin{aligned} &\\frac{e}{\\sigma}\\sim N(0,I_n) \\ , \\\\ \\\\ &\\frac{\\rm RSS}{\\sigma^2}=\\frac{e\'(I_n-H)e}{\\sigma^2}=\\left(\\frac{e}{\\sigma}\\right)\'(I_n-H)\\left(\\frac{e}{\\sigma}\\right) \\ , \\end{aligned} \\]根据对称幂等矩阵的秩与迹相等这一性质可得
\\[{\\rm rank}(I_n-H)={\\rm tr}(I_n-H)=n-{\\rm tr}(H)=n-{\\rm rank}(H)=n-{\\rm rank}(X) \\ . \\]由定理 2.4.3 可得
\\[\\frac{\\rm RSS}{\\sigma^2}\\sim\\chi^2\\left(n-{\\rm rank}(X)\\right) \\ . \\](c) 因为 \\(\\hat\\beta=\\beta+\\left(X\'X\\right)^{-1}X\'e\\) ,而 \\({\\rm RSS}=e\'\\left(I_n-H\\right)e\\) ,注意到
\\[\\left(X\'X\\right)^{-1}X\'\\cdot\\sigma^2I_n\\cdot\\left(I_n-H\\right)=0 \\ , \\]由推论 2.4.10 可知 \\(\\left(X\'X\\right)^{-1}X\'e\\) 与 \\({\\rm RSS}\\) 相互独立,从而 \\(\\hat\\beta\\) 与 \\({\\rm RSS}\\) 相互独立。
当 \\(\\beta\\) 的第一个分量是 \\(\\beta_0\\) 时,取 \\(c=(0,\\cdots,0,1,0,\\cdots,0)\'\\) ,其中 \\(1\\) 在 \\(c\\) 的第 \\(i+1\\) 个位置,则
推论 3.2.2:对于线性回归模型,若 \\(e\\sim N\\left(0,\\sigma^2I_n\\right)\\) ,则
(a) \\(\\beta_i\\) 的最小二乘估计 \\(\\hat\\beta_i\\) 的分布为:
(b) 在 \\(\\beta_i\\) 的一切线性无偏估计中,\\(\\hat\\beta_i\\) 是唯一的方差最小者,\\(i=1,2,\\cdots,p\\) 。
推论 3.2.3:对于中心化模型,此时 \\(\\beta=\\left(\\beta_1,\\beta_2,\\cdots,\\beta_p\\right)\'\\) ,则有
(a) \\({\\rm E}\\left(\\hat\\alpha\\right)=\\alpha,\\,{\\rm E}\\left(\\hat\\beta\\right)=\\beta\\) ,其中 \\(\\hat\\alpha=\\bar{y},\\,\\hat\\beta=\\left(X_c\'X_c\\right)^{-1}X_c\'Y\\) ;
(b)
(c) 若进一步假设 \\(e\\sim N\\left(0,\\sigma^2I_n\\right)\\) ,则
且 \\(\\hat\\alpha\\) 与 \\(\\hat\\beta\\) 相互独立。
总偏差平方和的分解:为了度量数据拟合的程度,我们在已经给出残差平方和 \\({\\rm RSS}\\) 的定义的基础上,继续给出回归平方和 \\({\\rm ESS}\\) 以及总偏差平方和 \\({\\rm TSS}\\) 的定义。
-
回归平方和:
\\[{\\rm ESS}=\\sum_{i=1}^n\\left(\\hat{y}_i-\\bar{y}\\right)^2=\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right) \\ . \\] -
总偏差平方和:
\\[{\\rm TSS}=\\sum_{i=1}^n\\left(y_i-\\bar{y}\\right)^2=\\left(Y-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(Y-\\boldsymbol{1}_n\\bar{y}\\right) \\ . \\] -
判定系数/测定系数:
\\[R^2=\\frac{\\rm ESS}{\\rm TSS} \\ . \\]称 \\(R=\\sqrt{R^2}\\) 为复相关系数。
为了探究 \\({\\rm TSS},\\,{\\rm ESS},\\,{\\rm RSS}\\) 之间的关系,需要给出正规方程组的另一个等价写法。写出目标函数:
关于 \\(\\beta_0,\\beta_1,\\cdots,\\beta_p\\) 分别求偏导数,并令这些导函数等于 \\(0\\) 可得
这个方程组与 \\(X\'X\\beta=X\'Y\\) 等价。由于最小二乘估计 \\(\\hat\\beta_0,\\hat\\beta_1,\\cdots,\\hat\\beta_p\\) 是正规方程组的解,所以
由第一个方程可知
所以有
这就证明了总偏差平方和的分解式,即 \\({\\rm TSS}={\\rm RSS}+{\\rm ESS}\\) 。我们可以基于这个公式来解释这三个平方和以之间关系,以及判定系数 \\(R^2\\) 的含义。
-
若模型中没有任何自变量,即 \\(y_i=\\beta_0+e_i,\\,i=1,2..,n\\) ,可以证明 \\(\\bar{y}\\) 就是 \\(\\beta_0\\) 的最小二乘估计,此时 \\({\\rm TSS}\\) 就是该模型的残差平方和。
-
若模型中引入了自变量 \\(x_1,x_2,\\cdots,x_p\\) ,此时的残差平方和为 \\({\\rm TSS}={\\rm RSS}+{\\rm ESS}\\) 中的 \\({\\rm RSS}\\) ,所以可以认为 \\({\\rm ESS}\\) 衡量了在模型中引入 \\(p\\) 个自变量之后,残差平方和的减少量。
-
因此我们认为 \\(R^2\\) 衡量了在模型中引入 \\(p\\) 个自变量之后,残差平方和减少的比例。也可以说,\\(R^2\\) 衡量了自变量 \\(x_1,x_2,\\cdots,x_p\\) 对因变量 \\(y\\) 的解释能力,且有 \\(0\\leq R^2\\leq1\\) 。
定理 3.2.5:对于中心化模型,回归平方和 \\({\\rm ESS}\\) 的计算公式为
由中心化模型可得 \\(\\hat{Y}=\\boldsymbol 1_n\\hat\\alpha+X_c\\hat\\beta\\) ,其中 \\(\\hat\\beta=\\left(\\hat\\beta_1,\\hat\\beta_2,\\cdots,\\hat\\beta_p\\right)\\) ,所以有
\\[\\hat{Y}-\\boldsymbol1_n\\bar{y}=\\hat{Y}-\\boldsymbol1_n\\hat\\alpha=X_c\\hat\\beta \\ . \\]代入 \\({\\rm ESS}\\) 的计算公式得
\\[{\\rm ESS}=\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)=\\hat\\beta\'X_c\'X_c\\hat\\beta=\\hat\\beta\'X_c\'Y \\ . \\]
以上是关于回归分析03:回归参数的估计的主要内容,如果未能解决你的问题,请参考以下文章