多元线性回归多重共线性检验及避免方法,简单点的

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多元线性回归多重共线性检验及避免方法,简单点的相关的知识,希望对你有一定的参考价值。

多重共线性指自变量问存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性,计算自变量的偏回归系数β时,矩阵不可逆,导致β存在无穷多个解或无解。
而在使用多元线性回归构建模型过程中,变量之间存在多重共线性问题也是比较常见的。那么当发现多重线性回归模型中存在多重共线性时我们该如何处理呢?
可通过以下方法予以解决:
(1)逐步回归
使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量,而将解释较小的变量排除在模型之外。
但这种方法缺点是当共线性较为严重时,变量自动筛选的方法并不能完全解决问题。
(2) 岭回归
岭回归为有偏估计,但能有效地控制回归系数的标准误大小。
(3) 主成分回归
可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分,然后以特征值较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。
该方法在提取主成分时丢失了一部分信息,几个自变量间的多重共线性越强,提取主成分时丢失的信息越少。
(4) 路径分析
如果对自变量间的联系规律有比较清楚的了解,则可以考虑建立路径分析模型,以进行更深入的研究。
参考技术A 共线性是通过计算各个变量对应的容忍度(Tol)和方差膨胀因子(VIF)来判断的,然后剔除异常变量。共线性是多元线性回归内在机制固有的问题,无法避免。

多重共线性检验方法?

参考技术A 计量经济学中多重共线性的检验方法有哪些
一、一般线性回归:

proc reg data=abc;

model y=x1-x4

run;

二、多重共线性的检验

1、简单相关系数检验法

proc corr data=abc;

var x1-x4;

run;

2、方差扩大因子法

proc reg data=abc;

model y=x1-x4/vif;

run;

3、直观分析法(略)

4、逐步回归检测法

这在SAS中有多重筛选解释变量的方法:forward、backword、stepwise、maxr、minr、rsquare,主要采用stepwise

proc reg data=abc;

model y=x1-x4/selection=stepwise sle=0.05 sls=0.10;

run; quit;

5、特征值和病态指数

proc reg data=abc;

model y=x1-x4/collin;

run;

三、多重共线性的补救措施

1、提出变量法(根据前面的检测剔除掉vif值大的变量……略)

2、增大样本容量(略)

3、变换模型形式

常使用变量的差分方式,一阶差分形式如下:

data abc;

set abc;

x1lag1=lag(x1);

x2lag1=lag(x2);

x3lag1=lag(x3);

x4lag1=lag(x4);

ylag1=lag(y);

if nmiss(x1lag1,x2lag1,x3lag1,x4lag1,ylag1)>0 then delete;

dx1=x1-x1lag1;

dx2=x1-x2lag1;

dx3=x1-x3lag1;

dx4=x1-x4lag1;

dy=x1-ylag1;

run;

proc reg data=abc;

model y=x1-x4;

run;quit;

4、利用非样本先验信息(即已知某些解释变量之间的等式从而可剔除掉一些解释变量,略)

5、横截面数据与时间序列数据并用

属于先验信息法的变种,首先利用横截面数据估计出部分参数代入原方程,再利用时间序列数据估计出另外的部分参数,其前提是前一部分参数在不同时间上变化很小。

6、变量变换

绝对指标转为相对指标;

名义数据转为实际数据;

小类指标合并为大类指标(主成分分析和因子分析,后面再予补充)

7、逐步回归法(参见检验部分,略)

8、岭回归

当自变量存在多重共线关系时, 均方误差将变得很大,故从均方误差的角度看, 普通最小二乘估计不是系数的好估计,减少均方误差的方法就是用岭回归估计替代最小二乘估计。但使得均方误差达到最小的k值依赖于未知参数系数和随机干扰项的方差,因此k 值的确定是岭回归分析中关键。

在实际应用中, 通常确定k值的方法有以下几种:①岭迹图法, 即对每个自变量xi, 绘制随k值的变化岭回归估计的变化曲线图。一般选择k使得各个自变量的岭迹趋于稳定;②方差膨胀因子法, 选择k使得岭回归估计的VIF<10;③控制残差平方和法, 即通过限制岭回归估计的残差平方和不能超过cQ(其中c>1为指定的常数,Q为最小二乘估计的残差平方和)来找出最大的k值。

data abc;

input x1-x3 y;

cards;

149.3 4.2 108.1 15.9

161.2 4.1 114.8 16.4

171.5 3.1 123.2 19.0

175.5 3.1 126.9 19.1

180.8 1.1 132.1 18.8

190.7 2.2 137.7......
多重共线性的检验方法
,出现了相关系数与回归方程系数符号相反的问题,经过研究,确认是多重共线性问题并探索了解决方法。

在此将多重共线性的相关知识整理如下。

解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。

造成多重共线性的原因有一下几种:

1、解释变量都享有共同的时间趋势;

2、一个解释变量是另一个的滞后,二者往往遵循一个趋势;

3、由于数据收集的基础不够宽,某些解释变量可能会一起变动;

4、某些解释变量间存在某种近似的线性关系;

判别:

1、发现系数估计值的符号不对;

2、某些重要的解释变量t值低,而R方不低

3、当一不太重要的解释变量被删除后,回归结果显著变化;

检验;

1、相关性分析,相关系数高于0.8,表明存在多重共线性;但相关系数低,并不能表示不存在多重共线性;

2、vif检验;

3、条件系数检验;

解决方法:

1、增加数据;

2、对模型施加某些约束条件;

3、删除一个或几个共线变量;

4、将模型适当变形;

5、主成分回归

处理多重共线性的原则:

1、 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;

2、 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。

3、 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果;
怎么用SPSS做多重共线性检验
例如在回归分析中,线性回归-统计量-有共线性诊断。多重共线性:自变量间存在近似的线性关系,即某个自变量能近似的用其他自变量的线性函数来描述。多重共线性的后果:整个回归方程的统计检验Pa,不能纳入方程去掉一两个变量或记录,方程的回归系数值发生剧烈抖动,非常不稳定。多重共线性的确认:做出自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。容忍度(Tolerance):有 Norusis 提出,即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。陈希孺等根据经验得出:如果某个自变量的容忍度小于0.1,则可能存在共线性问题。方差膨胀因子(Variance inflation factor, VIF): 由Marquardt于1960年提出,实际上就是容忍度的倒数。特征根(Eigenvalue):该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。条件指数(Condition Idex):由Stewart等提出,当某些维度的该指标数值大于30时,则能存在共线性。多重共线性的对策:增大样本量,可部分的解决共线性问题采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。进行主成分分析,用提取的因子代替原变量进行回归分析。进行岭回归分析,它可以有效的解决多重共线性问题。进行通径分析(Path Analysis),它可以对应自变量间的关系加以精细的刻画。
怎么用SPSS做多重共线性检验啊
SPSS回归分析中有共线性诊断,分析—回归—线性回归——统计量,在弹出的对话框中选择“共线性诊断”就可以了

根据SPSS分析结果如何判断是否共线性

如果容差(tolerance)<=0.1或方差膨胀因子VIF(是容差的倒数)>=10,则说明自变量间存在严重共线性情况

条件索引(condition index)>10或方差比例(variance proportions)<0.5时,自变量间存在严重共线性
求spss怎么做多重共线性检验,相关系数矩阵怎么得到?在线等
已百度Hi发过去了,看看
多元线性回归多重共线性检验及避免方法,简单点的
多重共线性指自变量问存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性,计算自变量的偏回归系数β时,矩阵不可逆,导致β存在无穷多个解或无解。

而在使用多元线性回归构建模型过程中,变量之间存在多重共线性问题也是比较常见的。那么当发现多重线性回归模型中存在多重共线性时我们该如何处理呢?

可通过以下方法予以解决:

(1)逐步回归

使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量,而将解释较小的变量排除在模型之外。

但这种方法缺点是当共线性较为严重时,变量自动筛选的方法并不能完全解决问题。

(2) 岭回归

岭回归为有偏估计,但能有效地控制回归系数的标准误大小。

(3) 主成分回归

可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分,然后以特征值较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。

该方法在提取主成分时丢失了一部分信息,几个自变量间的多重共线性越强,提取主成分时丢失的信息越少。

(4) 路径分析

如果对自变量间的联系规律有比较清楚的了解,则可以考虑建立路径分析模型,以进行更深入的研究。
如何解读SPSS共线性诊断结果以及解决多重共线性问题的方法
多重共线性的诊断是在回归中进行的,所以先打开回归的对话框: *** yse--regression--linear,打开线性回归对话框

将自变量因变量都放到各自的位置,然后点击statistic

在该对话框中,有一个多重共线性诊断的选项,勾选他,如图所示,点击continue按钮,返回主对话框

点击ok按钮,开始输出诊断结果

我们先来看这两个参数,特征根(Eigenvalue):多个维度特征根约为0证明存在多重共线性;条件指数(Condition Index):大于10时提示我们可能存在多重共线性

6

接着来看相关系数矩阵,找到数值接近1的相关,这也提示出可能存在多重共线性。
多重共线性的典型表现是什么?判断是否存在多重共线性的方法有哪些
多重共线性的典型表现是线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。主要产生原因是经济变量相关的共同趋势,滞后变量的引入,样本资料的限制。

判断是否存在多重共线性的方法有特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。条件索引列第3第4列大于10,可以说明存在比较严重的共线性。比例方差内存在接近1的数,可以说明存在较严重的共线性。

以上是关于多元线性回归多重共线性检验及避免方法,简单点的的主要内容,如果未能解决你的问题,请参考以下文章

线性回归

看R语言建立回归分析,如何利用VIF查看共线性问题

线性回归算法

5.4 多重共线性人均网络消费回归分析——python实战

第七讲异方差多重共线性逐步回归

如何解读SPSS共线性诊断结果以及解决多重共线性问题的方法