回归分析03:回归参数的估计

Posted 这个XD很懒

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了回归分析03:回归参数的估计相关的知识,希望对你有一定的参考价值。

Chapter 3:回归参数的估计(1)

3.1 最小二乘估计

\\(y\\) 表示因变量,\\(x_1,x_2,\\cdots,x_p\\) 表示对 \\(y\\) 有影响的 \\(p\\) 个自变量。

  • 总体回归模型:假设 \\(y\\)\\(x_1,x_2,\\cdots,x_p\\) 之间满足如下线性关系式

    \\[y=\\beta_0+\\beta_1 x_1+\\beta_2x_2+\\cdots+\\beta_px_p+e \\ , \\]

    其中 \\(e\\) 是随机误差,将 \\(\\beta_0\\) 称为回归常数,将 \\(\\beta_1,\\beta_1,\\cdots,\\beta_p\\) 称为回归系数。

  • 总体回归函数:定量地刻画因变量的条件均值与自变量之间的相依关系,即

    \\[{\\rm E}(y|x)=\\beta_0+\\beta_1 x_1+\\beta_2x_2+\\cdots+\\beta_px_p \\ , \\]

    回归分析的首要目标就是估计回归函数。

假定已有因变量 \\(y\\) 和自变量 \\(x_1,x_2,\\cdots,x_p\\)\\(n\\) 组观测样本 \\(\\left(x_{i1},x_{i2},\\cdots,x_{ip}\\right),\\,i=1,2,\\cdots,n\\)

  • 样本回归模型:样本观测值满足如下线性方程组

\\[y_i=\\beta_0+\\beta_1x_{i1}+\\beta_2x_{i2}+\\cdots+\\beta_px_{ip}+e_i \\ , \\quad i=1,2,\\cdots,n \\ . \\]

  • Gauss-Markov 假设:随机误差项 \\(e_i,\\,i=1,2,\\cdots,n\\) 满足如下假设:
    1. 零均值:\\({\\rm E}(e_i)=0\\)
    2. 同方差:\\({\\rm Var}(e_i)=\\sigma^2\\)
    3. 不相关:\\({\\rm Cov}(e_i,e_j)=0 \\ , \\ \\ i\\neq j\\)

如果将样本回归模型中的线性方程组,用矩阵形式表示为

\\[Y\\xlongequal{def}\\left(\\begin{array}{c} y_1 \\\\ y_2 \\\\ \\vdots \\\\ y_n \\end{array}\\right)=\\left(\\begin{array}{c} 1 & x_{11} & \\cdots & x_{1p} \\\\ 1 & x_{21} & \\cdots & x_{2p} \\\\ \\vdots & \\vdots & \\ddots & \\vdots \\ \\\\ 1 & x_{n1} & \\cdots & x_{np} \\\\ \\end{array}\\right)\\left(\\begin{array}{c} \\beta_0 \\\\ \\beta_1 \\\\ \\vdots \\\\ \\beta_p \\end{array}\\right)+\\left(\\begin{array}{c} e_1 \\\\ e_2 \\\\ \\vdots \\\\ e_n \\end{array}\\right)\\xlongequal{def}X\\beta+e \\ , \\]

其中 \\(X\\) 称为设计矩阵。若将 Gauss-Markov 假设也用矩阵形式表示为

\\[{\\rm E}(e)=0 \\ , \\quad {\\rm Cov}(e)=\\sigma^2I_n \\ , \\]

将矩阵方程和 Gauss-Markov 假设合写在一起,即可得到最基本的线性回归模型

\\[Y=X\\beta+e \\ , \\quad {\\rm E}(e)=0 \\ , \\quad {\\rm Cov}(e)=\\sigma^2I_n \\ . \\]

最小二乘估计:寻找一个 \\(\\beta\\) 的估计,使得误差向量 \\(e=Y-X\\beta\\) 的长度的平方达到最小。设

\\[\\begin{aligned} Q(\\beta)&=\\|Y-X\\beta\\|^2 \\\\ \\\\ &=(Y-X\\beta)\'(Y-X\\beta) \\\\ \\\\ &=Y\'Y-2Y\'X\\beta+\\beta\'X\'X\\beta \\ , \\end{aligned} \\]

\\(\\beta\\) 求导,令其等于零,可得正规方程组

\\[X\'X\\beta=X\'Y \\ . \\]

正规方程组有唯一解的充要条件是 \\({\\rm rank}\\left(X\'X\\right)=p+1\\) ,这等价于 \\({\\rm rank}(X)=p+1\\) ,即 \\(X\\) 是列满秩的。正规方程组的唯一解为

\\[\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y \\ . \\]

以上的讨论说明 \\(\\hat\\beta\\)\\(Q(\\beta)\\) 的一个驻点,下面证明 \\(\\hat\\beta\\)\\(Q(\\beta)\\) 的最小值点。

对任意的 \\(\\beta\\in\\mathbb{R}^{p+1}\\) ,有

\\[\\begin{aligned} \\|Y-X\\beta\\|^2&=\\left\\|Y-X\\hat\\beta+X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2 \\\\ \\\\ &=\\left\\|Y-X\\hat\\beta\\right\\|^2+\\left\\|X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2+2\\left(\\hat\\beta-\\beta\\right)\'X\'\\left(Y-X\\hat\\beta\\right) \\ . \\end{aligned} \\]

因为 \\(\\hat\\beta\\) 满足正规方程组 \\(X\'X\\hat\\beta=X\'Y\\) ,所以 \\(X\'\\left(Y-X\\hat\\beta\\right)=0\\) ,所以对任意的 \\(\\beta\\in\\mathbb{R}^{p+1}\\) ,有

\\[\\begin{aligned} \\|Y-X\\beta\\|^2&=\\left\\|Y-X\\hat\\beta\\right\\|^2+\\left\\|X\\left(\\hat\\beta-\\beta\\right)\\right\\|^2 \\ . \\end{aligned} \\]

所以有

\\[Q(\\beta)=\\|Y-X\\beta\\|^2\\geq \\left\\|Y-X\\hat\\beta\\right\\|^2=Q\\left(\\hat\\beta\\right) \\ . \\]

当且仅当 \\(\\beta=\\hat\\beta\\) 时等号成立。

我们将 \\(\\hat{Y}=X\\hat\\beta\\) 称为 \\(Y\\) 的拟合值向量或投影向量,注意到

\\[\\hat{Y}=X\\hat\\beta=X\\left(X\'X\\right)^{-1}X\'Y\\xlongequal{def}HY \\ , \\]

我们将 \\(H=X\\left(X\'X\\right)^{-1}X\'\\) 称为帽子矩阵,它是自变量空间的投影矩阵,这里的自变量空间指的是矩阵 \\(X\\) 的列空间。此外,我们将 \\(\\hat{e}=Y-\\hat{Y}=(I-H)Y\\) 称为残差向量。

中心化模型:将原始数据进行中心化,令

\\[\\bar{x}_j=\\frac1n\\sum_{i=1}^nx_{ij} \\ , \\quad j=1,2,\\cdots,p \\ . \\]

将样本回归模型改写为

\\[y_i=\\alpha+\\beta_1\\left(x_{i1}-\\bar{x}_1\\right)+\\beta_2\\left(x_{i2}-\\bar{x}_2\\right)+\\cdots+\\beta_p\\left(x_{ip}-\\bar{x}_p\\right)+e_i \\ , \\quad i=1,2,\\cdots,n \\]

其中 \\(\\alpha=\\beta_0+\\beta_1\\bar{x}_1+\\beta_2\\bar{x}_2+\\cdots+\\beta_p\\bar{x}_p\\) 。定义设计矩阵为

\\[X_c=\\begin{pmatrix} x_{11}-\\bar{x}_1 & x_{12}-\\bar{x}_2 & \\cdots &x_{1p}-\\bar{x}_p \\\\ x_{21}-\\bar{x}_1 & x_{22}-\\bar{x}_2 & \\cdots &x_{2p}-\\bar{x}_p \\\\ \\vdots &\\vdots & \\ddots & \\vdots \\\\ x_{n1}-\\bar{x}_1 & x_{n2}-\\bar{x}_2 & \\cdots &x_{np}-\\bar{x}_p \\\\ \\end{pmatrix} \\ , \\]

将中心化模型写成矩阵形式:

\\[Y=\\boldsymbol 1_n\\alpha+X\\beta+e=\\begin{pmatrix} \\boldsymbol 1_n & X_c \\end{pmatrix}\\begin{pmatrix} \\alpha \\\\ \\beta \\end{pmatrix}+e \\ . \\]

其中 \\(\\beta=\\left(\\beta_1,\\beta_2,\\cdots,\\beta_p\\right)\'\\) 。注意到

\\[\\boldsymbol 1_n\'X_c=0 \\ , \\]

因此正规方程组可以写为

\\[\\begin{pmatrix} n & 0 \\\\ 0 & X_c\'X_c \\end{pmatrix} \\begin{pmatrix} \\alpha \\\\ \\beta \\end{pmatrix} =\\begin{pmatrix} \\boldsymbol 1_n\'Y \\\\ X_c\'Y \\end{pmatrix} \\quad \\iff \\quad \\left\\{\\begin{array}{l} n\\alpha=\\boldsymbol 1_n\'Y \\ , \\\\ X_c\'X_c\\beta=X_c\'Y \\ , \\end{array}\\right. \\]

解得回归参数的最小二乘估计为

\\[\\left\\{\\begin{array}{l} \\hat\\alpha=\\bar{y} \\ , \\\\ \\hat\\beta=\\left(X_c\'X_c\\right)^{-1}X_c\'Y \\ . \\end{array}\\right. \\]

标准化模型:将原始数据进行标准化,令

\\[\\begin{aligned} &s_j^2=\\sum_{i=1}^n\\left(x_{ij}-\\bar{x}_j\\right)^2 \\ , \\quad j=1,2,\\cdots,p \\ , \\\\ \\\\ &z_{ij}=\\frac{x_{ij}-\\bar{x}_j}{s_{j}} \\ , \\quad i=1,2,\\cdots,n \\quad j=1,2,\\cdots,p \\ , \\end{aligned} \\]

将样本回归模型改写为

\\[y_i=\\gamma+\\frac{x_{i1}-\\bar{x}_1}{s_1}\\beta_1+\\frac{x_{i2}-\\bar{x}_2}{s_2}\\beta_1+\\cdots\\frac{x_{ip}-\\bar{x}_p}{s_p}\\beta_1+e_i \\ , \\quad i=1,2,\\cdots,n \\ , \\]

\\(Z=(z_{ij})_{n\\times p}\\) ,将标准化模型写成矩阵形式:

\\[Y=\\boldsymbol 1_n\\gamma+Z\\beta+e=\\begin{pmatrix} \\boldsymbol 1_n & Z \\end{pmatrix}\\begin{pmatrix} \\gamma \\\\ \\beta \\end{pmatrix}+e \\ . \\]

解得回归参数的最小二乘估计为

\\[\\left\\{\\begin{array}{l} \\hat\\gamma=\\bar{y} \\ , \\\\ \\hat\\beta=\\left(Z\'Z\\right)^{-1}Z\'Y \\ . \\end{array}\\right. \\]

这里矩阵 \\(Z\\) 具有如下性质:

\\[\\boldsymbol{1}_n\'Z=0 \\ , \\quad R=Z\'Z=(r_{ij})_{p\\times p} \\ . \\]

其中 \\(r_{ij}\\) 为自变量 \\(x_i\\)\\(x_j\\) 的样本相关系数,矩阵 \\(R\\) 是自变量的样本相关系数矩阵。

3.2 最小二乘估计的性质

设线性回归模型满足 Gauss-Markov 假设,即

\\[Y=X\\beta+e \\ , \\quad {\\rm E}(e)=0 \\ , \\quad {\\rm Cov}(e)=\\sigma^2I_n \\ . \\]

下面我们来讨论最小二乘估计 \\(\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y\\) 的一些良好的性质。

定理 3.2.1:对于线性回归模型,最小二乘估计 \\(\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y\\) 具有下列性质:

(1) \\({\\rm E}\\left(\\hat\\beta\\right)=\\beta\\)

(2) \\({\\rm Cov}\\left(\\hat\\beta\\right)=\\sigma^2\\left(X\'X\\right)^{-1}\\)

(1) 因为 \\({\\rm E}(Y)=X\\beta\\) ,所以

\\[{\\rm E}\\left(\\hat\\beta\\right)=\\left(X\'X\\right)^{-1}X\'{\\rm E}(Y)=\\left(X\'X\\right)^{-1}X\'X\\beta=\\beta \\ . \\]

(2) 因为 \\({\\rm Cov}(Y)={\\rm Cov}(e)=\\sigma^2I_n\\) ,所以

\\[\\begin{aligned} {\\rm Cov}\\left(\\hat\\beta\\right)&={\\rm Cov}\\left(\\left(X\'X\\right)^{-1}X\'Y\\right) \\\\ \\\\ &=\\left(X\'X\\right)^{-1}X\'{\\rm Cov}(Y)X\\left(X\'X\\right)^{-1} \\\\ \\\\ &=\\left(X\'X\\right)^{-1}X\\sigma^2I_nX\\left(X\'X\\right)^{-1} \\\\ \\\\ &=\\sigma^2\\left(X\'X\\right)^{-1} \\ . \\end{aligned} \\]

推论 3.2.1:设 \\(c\\)\\(p+1\\) 维常数向量,我们称 \\(c\'\\hat\\beta\\)\\(c\'\\beta\\) 的最小二乘估计,具有下列性质:

(1) \\({\\rm E}\\left(c\'\\hat\\beta\\right)=c\'\\beta\\)

(2) \\({\\rm Cov}\\left(c\'\\hat\\beta\\right)=\\sigma^2c\'\\left(X\'X\\right)^{-1}c\\)

该推论说明,对任意的线性函数 \\(c\'\\beta\\) ,都有 \\(c\'\\hat\\beta\\)\\(c\'\\beta\\) 的无偏估计,

定理 3.2.2 (Gauss-Markov):对于线性回归模型,在 \\(c\'\\beta\\) 的所有线性无偏估计中,最小二乘估计 \\(c\'\\hat\\beta\\) 是唯一的最小方差线性无偏估计 (best linear unbiased estimator, BLUE) 。

假设 \\(a\'Y\\)\\(c\'\\beta\\) 的一个线性无偏估计,则对 \\(\\forall\\beta\\in\\mathbb{R}^{p+1}\\) ,都有

\\[{\\rm E}\\left(a\'Y\\right)=a\'X\\beta=c\'\\beta \\ . \\]

所以 \\(a\'X=c\'\\) 。又因为

\\[\\begin{aligned} &{\\rm Var}(a\'Y)=\\sigma^2a\'a=\\sigma^2\\|a\\|^2 \\ , \\\\ \\\\ &{\\rm Var}\\left(c\'\\hat\\beta\\right)=\\sigma^2c\'\\left(X\'X\\right)^{-1}c \\ , \\end{aligned} \\]

\\(\\|a\\|^2\\) 做分解有

\\[\\begin{aligned} \\|a\\|^2&=\\left\\|a-X\\left(X\'X\\right)^{-1}c+X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\\\ \\\\ &=\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 +2c\'\\left(X\'X\\right)^{-1}X\'\\left(a-X\\left(X\'X\\right)^{-1}c\\right) \\\\ \\\\ &=\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\ . \\end{aligned} \\]

最后一个等号是因为

\\[\\begin{aligned} 2c\'\\left(X\'X\\right)^{-1}X\'\\left(a-X\\left(X\'X\\right)^{-1}c\\right)&=2c\'\\left(X\'X\\right)^{-1}\\left(X\'a-c\\right)=0 \\ . \\end{aligned} \\]

代入 \\(a\'Y\\) 的方差,所以

\\[\\begin{aligned} {\\rm Var}\\left(a\'Y\\right)&=\\sigma^2\\|a\\|^2 \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\sigma^2\\left\\|X\\left(X\'X\\right)^{-1}c\\right\\|^2 \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+\\sigma^2c\'\\left(X\'X\\right)^{-1}X\'X\\left(X\'X\\right)^{-1}c \\\\ \\\\ &=\\sigma^2\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|^2+{\\rm Var}\\left(c\'\\hat\\beta\\right) \\\\ \\\\ &\\geq{\\rm Var}\\left(c\'\\hat\\beta\\right) \\ . \\end{aligned} \\]

等号成立当且仅当 \\(\\left\\|a-X\\left(X\'X\\right)^{-1}c\\right\\|=0\\) ,即 \\(a=X\\left(X\'X\\right)^{-1}c\\) ,此时 \\(c\'Y=c\'\\hat\\beta\\) ,得证。

误差方差 \\(\\sigma^2\\) 反映了模型误差对因变量的影响大小,下面来估计 \\(\\sigma^2\\)

注意到误差向量 \\(e=Y-X\\beta\\) 是不可观测的,用 \\(\\hat\\beta\\) 代替 \\(\\beta\\) ,称

\\[\\hat{e}=Y-X\\hat\\beta=Y-\\hat{Y} \\ . \\]

为残差向量。设 \\(x_i\'\\) 为设计矩阵 \\(X\\) 的第 \\(i\\) 行,则第 \\(i\\) 次观测的残差可以表示为

\\[\\hat e_i=y_i-x_i\'\\hat\\beta=y_i-\\hat{y}_i \\ , \\quad i=1,2,\\cdots,n \\ , \\]

\\(\\hat{y}_i\\) 为第 \\(i\\) 次观测的拟合值,称 \\(\\hat{Y}\\) 为拟合值向量。

\\(\\hat{e}\\) 看作 \\(e\\) 的一个估计,定义残差平方和为

\\[{\\rm RSS}=\\hat{e}\'\\hat{e}=\\sum_{i=1}^n\\hat{e}_i^2 \\ , \\]

它从整体上反映了观测数据与回归直线的偏离程度。

定理 3.2.3:我们用 \\({\\rm RSS}\\) 来构造 \\(\\sigma^2\\) 的无偏估计量。

(a) \\({\\rm RSS}=Y\'\\left(I_n-X\\left(X\'X\\right)^{-1}X\'\\right)Y=Y\'\\left(I_n-H\\right)Y\\)

(b) 若定义 \\(\\sigma^2\\) 的估计量为

\\[\\hat\\sigma^2=\\frac{\\rm RSS}{n-{\\rm rank}(X)} \\ , \\]

\\(\\hat\\sigma^2\\)\\(\\sigma^2\\) 的无偏估计量。

(a) 引入帽子矩阵 \\(\\hat{Y}=HY\\) ,所以 \\(\\hat{e}=\\left(I_n-H\\right)Y\\) ,所以

\\[{\\rm RSS}=\\hat{e}\'\\hat{e}=Y\'(I_n-H)\'(I_n-H)Y=Y\'(I_n-H)Y \\ . \\]

(b) 把 \\(Y=X\\beta+e\\) 代入 \\({\\rm RSS}\\) 的表达式可得

\\[\\begin{aligned} {\\rm RSS}&=(X\\beta+e)\'(I_n-H)(X\\beta+e) \\\\ \\\\ &=\\beta\'X\'(I_n-H)X\\beta+e\'(I_n-H)e \\\\ \\\\ &=\\beta\'X\'X\\beta-\\beta\'X\'X(X\'X)^{-1}X\'X\\beta++e\'(I_n-H)e \\\\ \\\\ &=e\'(I_n-H)e \\ . \\end{aligned} \\]

由定理 2.2.1 可知

\\[\\begin{aligned} {\\rm E}\\left({\\rm RSS}\\right)&={\\rm E}\\left[e\'(I_n-H)e\\right] \\\\ \\\\ &=0+{\\rm tr}\\left[(I_n-H)\\sigma^2I_n\\right] \\\\ \\\\ &=\\sigma^2(n-{\\rm tr}(H)) \\ . \\end{aligned} \\]

根据对称幂等矩阵的秩与迹相等这一性质可得

\\[{\\rm tr}(H)={\\rm rank}(H)={\\rm rank}(X) \\ . \\]

所以有

\\[{\\rm E}\\left({\\rm RSS}\\right)=\\sigma^2(n-{\\rm rank}(X)) \\ . \\]

进而

\\[\\hat\\sigma^2=\\frac{\\rm RSS}{n-{\\rm rank}(X)} \\]

\\(\\sigma^2\\) 的无偏估计量。

如果误差向量 \\(e\\) 服从正态分布,即 \\(e\\sim N_n\\left(0,\\sigma^2I_n\\right)\\) ,则可以得到 \\(\\hat\\beta\\)\\(\\hat\\sigma^2\\) 的更多性质。

定理 3.2.4:对于线性回归模型,如果误差向量 \\(e\\sim N_n\\left(0,\\sigma^2I_n\\right)\\) ,则

(a) \\(\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right)\\)

(b) \\({\\rm RSS}/\\sigma^2\\sim\\chi^2(n-{\\rm rank}(X))\\)

(c) \\(\\hat\\beta\\)\\({\\rm RSS}\\) 相互独立。

(a) 注意到

\\[\\hat\\beta=\\left(X\'X\\right)^{-1}X\'Y=\\left(X\'X\\right)^{-1}X\'(X\\beta+e)=\\beta+\\left(X\'X\\right)^{-1}X\'e \\ . \\]

由定理 2.3.4 和定理 3.2.1 可得

\\[\\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X\'X\\right)^{-1}\\right) \\ . \\]

(b) 注意到

\\[\\begin{aligned} &\\frac{e}{\\sigma}\\sim N(0,I_n) \\ , \\\\ \\\\ &\\frac{\\rm RSS}{\\sigma^2}=\\frac{e\'(I_n-H)e}{\\sigma^2}=\\left(\\frac{e}{\\sigma}\\right)\'(I_n-H)\\left(\\frac{e}{\\sigma}\\right) \\ , \\end{aligned} \\]

根据对称幂等矩阵的秩与迹相等这一性质可得

\\[{\\rm rank}(I_n-H)={\\rm tr}(I_n-H)=n-{\\rm tr}(H)=n-{\\rm rank}(H)=n-{\\rm rank}(X) \\ . \\]

由定理 2.4.3 可得

\\[\\frac{\\rm RSS}{\\sigma^2}\\sim\\chi^2\\left(n-{\\rm rank}(X)\\right) \\ . \\]

(c) 因为 \\(\\hat\\beta=\\beta+\\left(X\'X\\right)^{-1}X\'e\\) ,而 \\({\\rm RSS}=e\'\\left(I_n-H\\right)e\\) ,注意到

\\[\\left(X\'X\\right)^{-1}X\'\\cdot\\sigma^2I_n\\cdot\\left(I_n-H\\right)=0 \\ , \\]

由推论 2.4.10 可知 \\(\\left(X\'X\\right)^{-1}X\'e\\)\\({\\rm RSS}\\) 相互独立,从而 \\(\\hat\\beta\\)\\({\\rm RSS}\\) 相互独立。

\\(\\beta\\) 的第一个分量是 \\(\\beta_0\\) 时,取 \\(c=(0,\\cdots,0,1,0,\\cdots,0)\'\\) ,其中 \\(1\\)\\(c\\) 的第 \\(i+1\\) 个位置,则

\\[c\'\\beta=\\beta_i \\ , \\quad c\'\\hat\\beta=\\hat\\beta_i \\ , \\quad i=1,2,\\cdots,p \\ . \\]

推论 3.2.2:对于线性回归模型,若 \\(e\\sim N\\left(0,\\sigma^2I_n\\right)\\) ,则

(a) \\(\\beta_i\\) 的最小二乘估计 \\(\\hat\\beta_i\\) 的分布为:

\\[\\hat\\beta_i\\sim N\\left(\\beta_i,\\sigma^2\\left(\\left(X\'X\\right)^{-1}\\right)_{i+1,i+1}\\right) \\ , \\quad i=1,2,\\cdots,p \\ ; \\]

(b) 在 \\(\\beta_i\\) 的一切线性无偏估计中,\\(\\hat\\beta_i\\) 是唯一的方差最小者,\\(i=1,2,\\cdots,p\\)

推论 3.2.3:对于中心化模型,此时 \\(\\beta=\\left(\\beta_1,\\beta_2,\\cdots,\\beta_p\\right)\'\\) ,则有

(a) \\({\\rm E}\\left(\\hat\\alpha\\right)=\\alpha,\\,{\\rm E}\\left(\\hat\\beta\\right)=\\beta\\) ,其中 \\(\\hat\\alpha=\\bar{y},\\,\\hat\\beta=\\left(X_c\'X_c\\right)^{-1}X_c\'Y\\)

(b)

\\[{\\rm Cov}\\begin{pmatrix} \\hat\\alpha \\\\ \\hat\\beta \\end{pmatrix}=\\sigma^2\\begin{pmatrix} \\cfrac1n & 0 \\\\ 0 & \\left(X_c\'X_c\\right)^{-1} \\end{pmatrix} \\ ; \\]

(c) 若进一步假设 \\(e\\sim N\\left(0,\\sigma^2I_n\\right)\\) ,则

\\[\\hat\\alpha\\sim N\\left(\\alpha,\\frac{\\sigma^2}{n}\\right) \\ , \\quad \\hat\\beta\\sim N\\left(\\beta,\\sigma^2\\left(X_c\'X_c\\right)^{-1}\\right) \\ , \\]

\\(\\hat\\alpha\\)\\(\\hat\\beta\\) 相互独立。

总偏差平方和的分解:为了度量数据拟合的程度,我们在已经给出残差平方和 \\({\\rm RSS}\\) 的定义的基础上,继续给出回归平方和 \\({\\rm ESS}\\) 以及总偏差平方和 \\({\\rm TSS}\\) 的定义。

  • 回归平方和:

    \\[{\\rm ESS}=\\sum_{i=1}^n\\left(\\hat{y}_i-\\bar{y}\\right)^2=\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right) \\ . \\]

  • 总偏差平方和:

    \\[{\\rm TSS}=\\sum_{i=1}^n\\left(y_i-\\bar{y}\\right)^2=\\left(Y-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(Y-\\boldsymbol{1}_n\\bar{y}\\right) \\ . \\]

  • 判定系数/测定系数:

    \\[R^2=\\frac{\\rm ESS}{\\rm TSS} \\ . \\]

    \\(R=\\sqrt{R^2}\\) 为复相关系数。

为了探究 \\({\\rm TSS},\\,{\\rm ESS},\\,{\\rm RSS}\\) 之间的关系,需要给出正规方程组的另一个等价写法。写出目标函数:

\\[Q(\\beta)=\\sum_{i=1}^ne_i^2=\\sum_{i=1}^n\\left(y_i-\\beta_0-\\beta_1x_{i1}-\\cdots-\\beta_px_{ip}\\right)^2 \\ , \\]

关于 \\(\\beta_0,\\beta_1,\\cdots,\\beta_p\\) 分别求偏导数,并令这些导函数等于 \\(0\\) 可得

\\[\\left\\{\\begin{array}{c} \\displaystyle\\sum_{i=1}^n\\left(y_i-\\beta_0-\\beta_1x_{i1}-\\cdots-\\beta_px_{ip}\\right)=0 \\ , \\\\ \\displaystyle\\sum_{i=1}^n\\left(y_i-\\beta_0-\\beta_1x_{i1}-\\cdots-\\beta_px_{ip}\\right)x_{i1}=0 \\ , \\\\ \\vdots \\\\ \\displaystyle\\sum_{i=1}^n\\left(y_i-\\beta_0-\\beta_1x_{i1}-\\cdots-\\beta_px_{ip}\\right)x_{ip}=0 \\ , \\end{array}\\right. \\]

这个方程组与 \\(X\'X\\beta=X\'Y\\) 等价。由于最小二乘估计 \\(\\hat\\beta_0,\\hat\\beta_1,\\cdots,\\hat\\beta_p\\) 是正规方程组的解,所以

\\[\\left\\{\\begin{array}{l} \\displaystyle\\sum_{i=1}^n\\left(y_i-\\hat\\beta_0-\\hat\\beta_1x_{i1}-\\cdots-\\hat\\beta_px_{ip}\\right)=0 \\ , \\\\ \\displaystyle\\sum_{i=1}^n\\left(y_i-\\hat\\beta_0-\\hat\\beta_1x_{i1}-\\cdots-\\hat\\beta_px_{ip}\\right)x_{i1}=0 \\ , \\\\ \\qquad \\vdots \\\\ \\displaystyle\\sum_{i=1}^n\\left(y_i-\\hat\\beta_0-\\hat\\beta_1x_{i1}-\\cdots-\\hat\\beta_px_{ip}\\right)x_{ip}=0 \\ , \\end{array}\\right. \\]

由第一个方程可知

\\[\\sum_{i=1}^n\\hat{e}_i=0 \\ , \\quad \\frac1n\\sum_{i=1}^n\\hat{y}_i=\\bar{y}=\\frac1n\\sum_{i=1}^ny_i \\ . \\]

所以有

\\[\\begin{aligned} {\\rm TSS}&=\\sum_{i=1}^n\\left(y_i-\\bar{y}\\right)^2 \\\\ \\\\ &=\\sum_{i=1}^n\\left(y_i-\\hat{y}_i+\\hat{y}_i-\\bar{y}\\right)^2 \\\\ \\\\ &=\\sum_{i=1}^n\\left(y_i-\\hat{y}_i\\right)^2+\\sum_{i=1}^n\\left(\\hat{y}_i-\\bar{y}\\right)^2+2\\sum_{i=1}^n\\left(y_i-\\hat{y}_i\\right)\\left(\\hat{y}_i-\\bar{y}\\right) \\\\ \\\\ &=\\sum_{i=1}^n\\left(y_i-\\hat{y}_i\\right)^2+\\sum_{i=1}^n\\left(\\hat{y}_i-\\bar{y}\\right)^2+0 \\\\ \\\\ &={\\rm RSS}+{\\rm ESS} \\ . \\end{aligned} \\]

这就证明了总偏差平方和的分解式,即 \\({\\rm TSS}={\\rm RSS}+{\\rm ESS}\\) 。我们可以基于这个公式来解释这三个平方和以之间关系,以及判定系数 \\(R^2\\) 的含义。

  • 若模型中没有任何自变量,即 \\(y_i=\\beta_0+e_i,\\,i=1,2..,n\\) ,可以证明 \\(\\bar{y}\\) 就是 \\(\\beta_0\\) 的最小二乘估计,此时 \\({\\rm TSS}\\) 就是该模型的残差平方和。

  • 若模型中引入了自变量 \\(x_1,x_2,\\cdots,x_p\\) ,此时的残差平方和为 \\({\\rm TSS}={\\rm RSS}+{\\rm ESS}\\) 中的 \\({\\rm RSS}\\) ,所以可以认为 \\({\\rm ESS}\\) 衡量了在模型中引入 \\(p\\) 个自变量之后,残差平方和的减少量。

  • 因此我们认为 \\(R^2\\) 衡量了在模型中引入 \\(p\\) 个自变量之后,残差平方和减少的比例。也可以说,\\(R^2\\) 衡量了自变量 \\(x_1,x_2,\\cdots,x_p\\) 对因变量 \\(y\\) 的解释能力,且有 \\(0\\leq R^2\\leq1\\)

定理 3.2.5:对于中心化模型,回归平方和 \\({\\rm ESS}\\) 的计算公式为

\\[{\\rm ESS}=\\hat\\beta\'X_c\'Y=Y\'X_c\\left(X_c\'X_c\\right)^{-1}X_c\'Y \\ . \\]

由中心化模型可得 \\(\\hat{Y}=\\boldsymbol 1_n\\hat\\alpha+X_c\\hat\\beta\\) ,其中 \\(\\hat\\beta=\\left(\\hat\\beta_1,\\hat\\beta_2,\\cdots,\\hat\\beta_p\\right)\\) ,所以有

\\[\\hat{Y}-\\boldsymbol1_n\\bar{y}=\\hat{Y}-\\boldsymbol1_n\\hat\\alpha=X_c\\hat\\beta \\ . \\]

代入 \\({\\rm ESS}\\) 的计算公式得

\\[{\\rm ESS}=\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)\'\\left(\\hat{Y}-\\boldsymbol{1}_n\\bar{y}\\right)=\\hat\\beta\'X_c\'X_c\\hat\\beta=\\hat\\beta\'X_c\'Y \\ . \\]

以上是关于回归分析03:回归参数的估计的主要内容,如果未能解决你的问题,请参考以下文章

r语言如何最小二乘线性回归分析

回归分析11:含定性因变量的回归模型

线性回归与特征归一化(feature scaling)

方差分析和回归分析的异同是啥

Python数模笔记-Sklearn线性回归

spss非线性回归分析步骤