多元线性回归中自变量减少预测误差变大回归平方怎么变化

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多元线性回归中自变量减少预测误差变大回归平方怎么变化相关的知识,希望对你有一定的参考价值。

关注
当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归:

1.1多元回归模型:

y=β0+β1x1+β2x2+…+βkxk+ε
y=β0+β1x1+β2x2+…+βkxk+ε
1.2多元回归方程

E(y)=β0+β1x1+β2x2+…+βkxk
E(y)=β0+β1x1+β2x2+…+βkxk
1.3估计的多元回归方程

y^=β0^+β1^x1+β2^x2+…+βk^xk
y^=β0^+β1^x1+β2^x2+…+βk^xk

2.1**对参数的最小二乘法估计:**
和一元线性回归中提到的最小二乘法估计一样、这不过这里的求导变量多了点、原理是一样的、这里需要借助计算机求导、就不写了。
3 回归方程的拟合优度:
3.1 多重判定系数:(Multiple coefficient of determination)

R2=SSRSST=1−SSESST
R2=SSRSST=1−SSESST

注解:
(1 ) 对于多重判定系数有一点特别重要的需要说明:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变量数量。当增加自变量时,会使预测误差变得较小,从而减小残差平方和 SSESSE。自然就会是 SSRSSR变大。自然就会是 R2R2变大。这就会引发一个问题。如果模型中增加一个自变量,即使这个自变量在统计上并不显著, R2R2的值也会变大。因此为了避免这个问题。提出了 调整的多种判定系数(adjusted multiple coefficient of determination):
R2a=1−(1−R2)(n−1n−k−1)
Ra2=1−(1−R2)(n−1n−k−1)

R2aRa2 同时考虑了样本量 (n)(n) 和模型中自变量的个数 (k)(k) 的影响,这就使得 R2aRa2 的值永远小于 R2R2,而且 R2aRa2 的值不会因为模型中自变量的个数增多而逐渐接近于 11.
(2 ) R2R2 的平方根成为多重相关系数,也称为复相关系数, 它度量了因变量同 kk 个自变量的相关程度。
3.2 估计标准误差
同一元线性回归一样,多元回归中的估计标准误差也是误差项 εε 的方差 σ2σ2 的一个估计值,
se=SSEn−k−1−−−−−−−−√=MSE−−−−−√
se=SSEn−k−1=MSE
4. 显著性检验
在此重点说明,在一元线性回归中,线性关系的检验 (F检验)(F检验) 和回归系数的检验 (t检验)(t检验) 是等价的。 但是在多元回归中,线性关系的检验主要是检验因变量同多个自变量线性关系是否显著,在 kk 个自变量中,只要有一个自变量与因变量的线性关系显著, F检验F检验 就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中。
4.1 线性关系的检验
步骤:
(1):提出假设

H0:β1=β2=…=βk=0
H0:β1=β2=…=βk=0

H1:β1,β2,…=βk至少有一个不等于0
H1:β1,β2,…=βk至少有一个不等于0

(2):计算检验的统计量F.
F=SSR/kSSE/(n−k−1)≈F(k,n−k−1)
F=SSR/kSSE/(n−k−1)≈F(k,n−k−1)

(3):作出统计决策。
4.2 线性关系的检验
步骤:
(1):提出假设
H0:βi=0
H0:βi=0

H1:βi≠0
H1:βi≠0

(2):计算检验的统计量F.
ti=βi^sβi^≈t(n−k−1)
ti=βi^sβi^≈t(n−k−1)

(3):作出统计决策。
5.1 多重共线性
多重共线性:当回归模型中两个或两个以上的变量彼此相关时,则称回归模型中存在多重共线性。
多重共线性的判别:
(1)模型中中各对自变量之间显著相关
(2)当模型的线性关系检验 (F检验)(F检验) 显著时,几乎所有的回归系数 βiβi 的 tt 检验却不显著。
(3)回归系数的正负号与预期的相反。
(4)容忍度(tolerance) 与 方差扩大因子(variance inflation factor, VIF).
容忍度:某个变量的容忍度等于 1 减去该自变量为因变量而其他 k−1k−1 个自变量为预测变量时所得到的线性回归模型的判定系数。即 1−R2i1−Ri2。 容忍度越小,多重共线性越严重。通常认为 容忍度小于 0.1 时,存在严重的多重共线性。
方差扩大因子:容忍度的倒数。 因此,VIFVIF 越大,多重共线性越严重,一般认为 VIFVIF 的值大于10时,存在严重的多重共线性。

5.2 多重共线性的处理
常见的两种办法:
(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。
(2)如果要在模型中保留所有的自变量,那么应该:
(2.1)避免根据 tt统计量对单个参数 ββ 进行检验,
(2.2)对因变量 yy 值的推断(预测和估计)限定在自变量样本值的范围内。

5.3选择变量避免共线性的几种方式,
在建立回归模型时,我们总是希望用最少的变量来说明问题,选择自变量的原则通常是对统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引入回归模型中时,是否使残差平方和 (SSE)(SSE) 显著减少,如果增加一个自变量使残差平方和 (SSE)(SSE) 显著减少,则说明有必要将这个变量引入回归模型中,否则,没有必要将这个变量引入回归模型中。确定在模型中引入自变量 xixi 是否使残差平方和 (SSE)(SSE) 显著减少的方法,就是使用 FF 统计量的值作为一个标准,以此来确定在模型中增加一个自变量,还是从模型中剔除一个自变量。
变量选择方式:
5.3.1 向前选择;
第一步: 对 kk 个自变量分别与因变量 yy 的一元线性回归模型,共有 kk 个,然后找到 FF 统计量的值最大的模型及其自变量 xixi 并将其首先引入模型。
第二步: 在已经引入模型的 xixi 的基础上,再分别拟合 xixi 与模型外的 k−1k−1 个自变量的线性回归模型,挑选出 FF 值最大的含有两个自变量的模型, 依次循环、直到增加自变量不能导致 SSESSE 显著增加为止,
5.3.2向后剔除
第一步:先对所有的自变量进行线性回归模型。然后考察 p<kp<k 个去掉一个自变量的模型,使模型的SSE值减小最少的自变量被挑选出来从模型中剔除,
第二步:考察 p−1p−1 个再去掉一个自变量的模型,使模型的SSE值减小最少的自变量被挑选出来从模型中剔除,直到剔除一个自变量不会使SSE值显著减小为止,这时,模型中的所剩自变量自然都是显著的。
5.3.3逐步回归
是上面两个的结合、考虑的比较全,以后就用这个就可以。

具体的分析过程、咱们以spss的多元回归分析结果为例。

文章知识点与官方知识档案匹配
算法技能树首页概览
31292 人正在系统学习中
点击阅读全文
打开CSDN,阅读体验更佳

线性回归与非线性回归<em>分析</em>简明教程(python版)-全程干货无废话
<p> 本课程主要讲述如何使用python进行线性回归与非线性回归分析,包括: </p> <p> <br /> </p> <ul> <li> 基于statsmodel的线性回归方法 </li> <li> 基于sklearn的线性回归方法 </li> <li> 基于Numpy的一元多项式非线性回归方法 </li> <li> 基于sklearn的多元多项式非线性回归方法 </li> <li> 基于scipy的通用曲线拟合非线性回归方法 </li> </ul>
继续访问

最新发布 判别分析在SPSS上的实现与结果分析——基于SPSS实验报告
已知分组类别,判断样本的类别
继续访问

多元回归分析(实例,讲解,详实).doc
非常好的多元回归分析资料。 多元回归分析原理   回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。
SPSS多元回归分析实例
用SPSS 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型
SPSS的线性回归分析
使用SPSS软件进行线性回归分析,包括回归分析概述 线性回归分析 回归方程的统计检验 多元回归分析中的其他问题 线性回归分析的基本操作 线性回归分析的应用举例 曲线估计
spss进行多元线性回归并分析表格
本博客主要包含以下内容: 1.如何使用spss进行多元线性回归。 2.分析生成结果,并判断回归是否可行。 一、使用spss进行多元线性回归: 1.输入数据 2. 3. 4. 5. 6. 二、表格结果分析: R方是检验回归是否成功的重要要素之一,DW是残差独立性检验,衡量标准如下: 再看下一个表格: F的值是F检验的结果,他对应的P就是表格...
继续访问

《统计学》笔记:第12章 多元线性回归
《统计学(第六版)》贾俊平 第12章 多元线性回归 多元回归模型 multiple regression model 设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖于自变量x1,x2,…,xk和误差项ε的方程称为多元回归模型。其一般形式可表示为: y=β0+β1x1+β2x2+...+βkxk+ϵ y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon y=β0​+β1​x1​+β2​x2​+...+βk​xk​+ϵ 式中,β
继续访问
多元线性回归分析spss结果解读_Spss的线性回归做法及结果解读
上一节我们讲过了eviews做多元回归,但是很多同学做问卷之类的都需要用到spss,所以这节我教一下大家如何用spss做多元回归,并对结果进行解读,再对大家所疑惑的显著水平做一些白话的解释。一.线性回归的操作将因变量和自变量移入对应的框中,方法选择进入就好了。方法这里我们最多用的就是进入和逐步。二.回归模型的结果解读模型汇总模型RR 方调整 R 方标准 估计的误差1.905a.818.8...
继续访问

多重共线性详解
目录 1、多重共线性的现象 2、出现的原因 3、判别标准 4、检验方法 5、多重共线性有什么影响 6、多重共线性处理方法 7、其他说明 8、多重共线性识别-python代码8.1、vif检验8.2 相关系数8.3 聚类 9、宏观把握共线性问题9.1、共线性的一般性的影响9.2、共线性对线性回归、逻辑回归的影响 10、statsmodel库DF Residuals:残差的自由度Df Model:模型参数个数(不包含常量参数)R-squared:可决系数adj-R-squared:修正可决系数 1、多重共线性
继续访问

r语言多元线性回归_第三十一讲 R多元线性回归中的多重共线性和方差膨胀因子...
在前两讲中,我们介绍了多元线性回归的概念以及多元线性回归中的交互作用。今天学习的主要内容是多元线性回归中的多重共线性和方差膨胀因子。1. 共线性的概念1共线性在多元回归中,两个或多个预测变量可能彼此相关,这种情况称为共线性(multicollinearity)。2多重共线性存在一种称为多重共线性的极端情况,其中三个或更多变量之间存在共线性,即使没有一对变量具有特别高的相关性。这意味着预测...
继续访问
Multiple Linear Regressions 多元线性回归 (R)
多元回归 多元回归是线性回归模型的自然延伸。它用于从几个解释变量预测响应的值。每个解释变量都有自己的系数。响应变量由所有变量乘以各自系数的组合来预测。 其基本原理与简单回归相同:我们寻求预测因子的线性组合,以最小化与结果变量的差异。 the parallel slopes model 平行斜率模型 数据展示 当我们遇到两个 变量的场景,其中一个是 数字型变量(温度),其中一个是 分类型变量(是否是周末),我们定义了下面这样的模型: X1 是“温度”,X2是 “是否是周末” ..
继续访问
多元线性回归分析spss结果解读_SPSS 多元线性回归结果重要参数解读
当自变量过多时,选择步进,此方法可以自动剔除对因变量影响小的变量。选择共线性诊断用于判断多个变量之间是否相互关联以及关联的程度德宾-沃森(Durbin-Watson)DW用来检验回归分析中的残差项是否存在自相关(序列相关)现象“DEPENDNT”:因变量“ZPRED”:标准化预测值“ZRESID”:标准化残差“DRESID”:删除残差“ADJPRED”:调节预测值“SRESID”:学生化残差“SD...
继续访问
回归方程的拟合优度-多重判定系数-估计标准误差
2019独角兽企业重金招聘Python工程师标准>>> ...
继续访问
多元线性回归原理
例子先行 一元线性:拿房价预测来说,房价就只与一个特征size(feet^2)有关: 多元线性: 房子除了面积,还会有其他的特征:number of bedrooms;number of floors; age of home....,为了引入这些特征,有了多元线性回归,x1,x2,x3,x4为特征,y为预测的价格。 符号引入: n:特征的数量 ...
继续访问

SPSS软件介绍
SPSS软件界面描述 IBM SPSS是目前常用的一种统计分析软件,SPSS(Statistical Product and Service Solutions)是统计产品和服务解决方案软件,操作简单,无需写代码,只需确定要分析的数据及之间的因变、自变关系,以及需要做单因素、多因素、混合等分析即可。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响
继续访问
多重共线性一些指标解释
ANOVA中 F检验是对整个模型而已的,看是不是自变量系数不全为0,这里F检验值23,对应P概率=0,显著性P<0.05,H1成立,说明显著性非常高 系数中 t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。这里t检验对应概率大于0.05,即显著性一列为0.23和0.48,说明显著性很差 SPSS对于多重共线性的判断指标有以下几种:容忍度(Tolerance)、方差膨胀因子(V...
继续访问
第12章 多元线性回归-整理2
12.2 回归方程的拟合优度 12.2.1 多重判定系数 多重判定系数(multiple coefficient of determination)是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了因变量y的变差中被估计的回归方程所解释的比例。 R2=SSRSST=1−SSESSTR^2=\fracSSRSST=1-\fracSSESSTR2=SSTSSR​=1−SSTSSE​调整的多重判定系数: Ra2=1−(1−R2)(n−1n−k−1)R^2_
继续访问
热门推荐 SPSS多元线性回归输出结果的详细解释
先说一句题外话,如果当年在大学里数理统计等课程结合SPSS,SAS,R等软件来讲,应该效果会好很多。 最近做了一些用SPSS进行线性回归的实验,还是感觉很多细节把握不好,这里结合我的实验结果,以及网上别人的介绍总结一下,先贴几张SPSS的输出: 下面简单解释一下这三张图中的结果: 第一个表模型汇总表中,R表示拟合优度(goodness of fit),它是用来衡量估计的模型对观测...
继续访问
多元回归分析--学习笔记
回归系数解释:回多元回归情形下,对每一个回归系数的解释如下,当所有其他自变量保持不变时,bi是因变量y对应于自变量xi改变一个单位时所做的改变的估计值。 多元判定系数(R-sq):计算方法同简单线性回归,乘以100即可解释为:因变量y中的变异性能被估计多元线性回归方程解释的百分比 修正多元判定系数:多元判定系数的值总是随着新的自变量进入模型而增加,即使新增的变量在统计学上并不显
参考技术A 多元线性回归模型是社会科学中常用的模型,但其实这个模型有很多的要求,在应用模型前必须要了解背后的假设,然后来判断在自己的变量上应用这个模型是否适切,如果某些地方有违背,我们可以通过一些统计的方法来修正。
多元线性回归模型的假设
比较重要的假设有5个,至少要同时满足这5个才是一个好的多元线性回归模型。
既然是线性模型,那关系必然是线性的。
误差与自变量不相关
方差齐性 homoscedasticity (equal variance of ui)
误差之间不相关
误差正态分布 normality disturbance
下面逐个解释

1.自变量与因变量呈线性关系

通过散点图可以大致看出,左图是个曲线,但是右图可能是直线。因此右图就更加适合线性模型。如果非把曲线关系用线性模型来呈现,那么这个斜率其实是没有意义的,因为曲线模型的斜率一直是变化的,我们做这个模型预测得出的因变量会非常不准确。

2.误差项(u)与自变量不相关

误差项是自变量以外,解释因变量变异的部分。因为我们无法测量,所以称为误差。

导致误差项和自变量相关的几种情况:

影响因变量的自变量没有放入模型中
因果关系倒置(reverse causation): 因变量成了自变量,可不就与误差相关了吗?因为误差本来就是解释因变量变异的
自变量的测量误差(measurement erros): 没有完美的测量工具,measurement error必然存在,只有当测量误差比较大,或与自变量相关时,才有问题。例如,
误差项与自变量相关会导致什么问题?

3.方差齐性

不同的自变量X取值,对应的因变量Y的变化,应该是类似的,也就是Y的方差变化不能太大。如果因变量方差变化太大,也就是方差不齐,会导致几个后果: 1)斜率没有偏倚unbiased,但是斜率的误差变大了。 2)统计检验会出问题

4.不同个案之间的误差不相关 errors across cases are not correlated

也就是说,个案之间是相互独立,互不影响的。常见的影响个案独立性的群组效应,例如同一个班级的学生对某位老师的看法可能类似、同一个家庭的生活习惯也可能相似。追踪数据也会出现观察值之间有关联的问题,因为毕竟都是同一个人的数据,一个人在不同时期的体重可能具有很高的相关度。

如果个案之间相互影响,斜率依然没有偏倚unbiased,但是斜率的误差会变大(通常是变小),也会带来统计检验的问题。(why???)

5.正态分布

误差是正态分布的。

多元线性回归模型的检验 Detection of assumption violation
具体解释:

1.检验线性关系

1)偏回归图: 在简单线性回归(一个X一个Y)中,我们画出自变量和因变量的散点图大致可以判断是否为线性关系。但是在多元线性回归中,我们不能再用这种一个自变量和一个因变量的bivariate plot,因为它没有控制其他自变量的影响,而是应该用偏回归图。什么是偏回归图?partial regression plots (residuals of Y on the remaining explanatory variables vs residuals of the target explanatory variable on the remaining explanatory variables)

2) 检验多项式; 如果X的平方、X的三次方在多元线性回归方程中也显著,说明X和Y不是线性关系。

3) 检验虚拟变量dummy variables: 把X划分为几个虚拟变量,然后检验这几个虚拟变量和Y的关系如何。如果虚拟变量和Y的关系类似,那么比较有可能是线性,如果几个虚拟变量和Y之间的关系差异比较大,那么X和Y之间更有可能是非线性关系。例如,探讨年龄和幸福感之间的关系,把年龄分为6-19儿童,20-40青年,41-60中年,61以上老年几个年龄段,儿童的幸福感随着年龄的增长而提高,但青年和中年的幸福感可能随着时间而降低,老年时人的幸福感可能又会提高。

2.自变量与误差不相关

理论与逻辑推断

3.检验方差齐性

1) 偏回归图;

2) 自变量和因变量的散点图

如图就是一个方差不齐的例子,可以看到点越来越分散了,离散程度越来越大。

3)在stata中检验方差是否整齐:

Breusch-Pagan test, stata 命令: hettest (只用于检验线性的方差异质性)
White's general test, stata命令:首先ssc install whitetest 安装程序,然后whitetst.( 除了可以检验线性的异质性,还可以检验曲线的方差的异质性,也就是检验X平方、X三次方的方差是否整齐)
4.误差之间不相关

注意时间序列数据、群组数据,这些数据可能会有误差相关的问题

多元线性回归模型的修正 Remedies of assumption violation
1.线性关系:用正确的模型,如果是曲线关系应该用log转化,或平方项,或虚拟变量(见用多元线性回归模型表示曲线关系)

2.误差与自变量不相关:

1)增加遗漏的变量

2)如果有因果倒置reverse causation的问题: 2SLS

3)如果有measurement errors, multilevel models

3. 方差不齐:

robust standard error:也就是用white standard error, 在stata中只要reg y x1 x2, robust即可(具体原理待补充)

加权最小二乘法weighted least square:如果方差是整齐的,那么每一个数据都是被同等对待的,权重是一样的;如果方差不齐,那么我们就给方差小的数据更多的权重,给方差大的数据更少的权重(因为方差大意味着偏离整体的程度高)

4. 误差不相关:

1)multilevel/mixed model

2)autoregressive model
参考技术B 设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖于自变量x1,x2,…,xk和误差项ε的方程称为多元回归模型。其一般形式可表示为:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k + ϵ y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon
y=β
0


1

x
1


2

x
2

+...+β
k

x
k



式中,β0,β1,β2,…,βk是模型的参数;ε为误差项。

多元回归方程 multiple regression equation

多元回归方程,描述了因变量y的期望值与自变量x1,x2,…,xk之间的关系。一般形式可表示为:
E ( y ) = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k E(y)=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k
E(y)=β
0


1

x
1


2

x
2

+...+β
k

x
k


估计的多元回归方程 estimated multiple regression equation

回归方程中的参数是未知的,需要利用样本数据去估计它们。当用样本统计量去估计回归方程中的未知参数时,就得到了估计的多元回归方程,其一般形式为:
y ^ = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + . . . + β ^ k x k \haty=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+...+\hat\beta_kx_k
y
^

=
β
^


0

+
β
^


1

x
1

+
β
^


2

x
2

+...+
β
^


k

x
k


多重判定系数 multiple coefficient of determination

多重判定洗漱是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。其定义如下
参考技术C 当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归:
1.1多元回归模型:


1.2多元回归方程



1.3估计的多元回归方程



2.1**对参数的最小二乘法估计:** 和一元线性回归中提到的最小二乘法估计一样、这不过这里的求导变量多了点、原理是一样的、这里需要借助计算机求导、就不写了。
3 回归方程的拟合优度:
3.1

多重判定系数:(Multiple coefficient of determination)



注解:

(1

)对于多重判定系数有一点特别重要的需要说明:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变量数量。当增加自变量时,会使预测误差变得较小,从而减小残差平方和SSE。自然就会是SSR变大。自然就会是R2变大。这就会引发一个问题。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2的值也会变大。因此为了避免这个问题。提出了调整的多种判定系数

以上是关于多元线性回归中自变量减少预测误差变大回归平方怎么变化的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之线性回归

R语言 | 多元回归中常见的变量选择方法

线性回归分析其中“β、 T 、F”分别是啥含义?

线性回归的应用——容量预测

第02周-单变量线性回归

多元线性回归理论与实践