Python检验多元共线性-VIF方差扩大因子

Posted 2020-10-25 webrobot

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python检验多元共线性-VIF方差扩大因子相关的知识，希望对你有一定的参考价值。

python入门/爬虫/数据统计/数据分析人工智能/机器学习/自然语言视频教程网址https://pythoner.taobao.com/

在一个回归方程中，假如两个或两个以上解释变量彼此高度相关，那么回归分析的结果将有可能无法分清每一个变量与因变量之间的真实关系。例如我们要知道吸毒对SAT考试分数的影响，我们会询问对象是否吸收过可卡因或海洛因，并用软件计算它们之间的系数。

虽然求出了海洛因和可卡因额回归系数，但两者相关性发生重叠，使R平方变大，依然无法揭开真实的情况。
因为吸食海洛因的人常常吸食可卡因，单独吸食一种毒品人很少。

当两个变量高度相关时，我们通常在回归方程中只采用其中一个，或创造一个新的综合变量，如吸食可卡因或海洛因。

又例如当研究员想要控制学生的整体经济背景时，他们会将父母双方的受教育程度都纳入方程式中。

如果单独把父亲或母亲的教育程度分离考虑，会引起混淆，分析变得模糊，因为丈夫和妻子的教育程度有很大相关性。

多元共线性带来问题：
（1）自变量不显著
（2）参数估计值的正负号产生影响

共线性统计量：
（1）容忍度tolerance
tolerance<0.1 表示存在严重多重共线
（2）方差扩大因子 variance inflation factor （VIF）
VIF>10表示存在严重多重共线性

http://blog.csdn.net/baimafujinji/article/details/49799409

回归分析是数据挖掘中最基本的方法，其中基于普通最小二乘法的多元线性回归要求模型中的特征数据不能存在有多重共线性，否则模型的可信度将大打折扣。但是就是技术而言，如何确定模型中的各各特征之间是否有多重共线性呢？

先来看一组数据

技术分享图片

我们能否用这组数据来建立多元线性回归模型呢？现在这组数据的问题还不十分明显，我们不妨用最简单的交叉散点图来透视一下数据可能存在的问题。于是我们在R中绘制了下图：

技术分享图片

从散点图中我们可以看出每个解释变量都与被解释变量有较明显的线性关系，而且这也是我们所希望看到的。但是两个解释变量之间似乎也呈现出了某种线性关系。事实上，如果计算两个解释变量之间的相关性系数，可知它们的线性相关系数高达，这也就意味着严重的多重共线性。在构建多元线性回归模型时，随着解释变量数目的增多，其中某两个解释变量之间产生多重共线性是很容易发生的情况。此时就需要考虑是否将其中某个变量从模型中剔除出去，甚至是重新考虑模型的构建。

但是这种视觉观察的方法仅仅能够作为定性研究的一种前导，最好能够有一种定量的方法来帮助我们最终抉择。为此再来看一组数据

技术分享图片