偏最小二乘法的岭回归分析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了偏最小二乘法的岭回归分析相关的知识,希望对你有一定的参考价值。
参考技术A 岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。
根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为
rXXb=ryX
式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。
岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+
(4-8) (rXX+ cI) bR=ryX
所以,在岭回归分析中,标准化回归系数为
(4-9) bR =(rXX+ cI)-1 ryX (1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即
(4-10) bR =(I+ crXX-1)-1b
(2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0< c< c0时,一致地有
(4-11) E|| bR -β||2≤ E|| b -β||2
(3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即
(4-12) || bR ||<|| b ||
岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为
E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β
关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上,岭迹中的回归系数已变得比较稳定,并且方差膨胀因子也变得足够小。
从理论上,最佳的c值是存在的,它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而,困难却在于c的最优值对不同的应用而有所不同,对其选择还只能凭经验判断。
以上是关于偏最小二乘法的岭回归分析的主要内容,如果未能解决你的问题,请参考以下文章