为啥在研究经济变量之间的非确定性关系时,回归分析是唯一可用的分析方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥在研究经济变量之间的非确定性关系时,回归分析是唯一可用的分析方法相关的知识,希望对你有一定的参考价值。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。

拓展资料:
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

方法
有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
1. Linear Regression线性回归
它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
多元线性回归可表示为Y=a+b1*X +b2*X2+ e,其中a表示截距,b表示直线的斜率,e是误差项。多元线性回归可以根据给定的预测变量(s)来预测目标变量的值。
2.Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,应该使用逻辑回归。这里,Y的值为0或1,它可以用下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
上述式子中,p表述具有某个特征的概率。你应该会问这样一个问题:“为什么要在公式中使用对数log呢?”。
因为在这里使用的是的二项分布(因变量),需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
3. Polynomial Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如下方程所示:
y=a+b*x^2
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始,然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显著性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。2
5. Ridge Regression岭回归
当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。
在线性等式中,预测误差可以划分为 2 个分量,一个是偏差造成的,一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里,将讨论由方差所造成的误差。
岭回归通过收缩参数λ(lambda)解决多重共线性问题。请看下面的等式:
L2=argmin||y=xβ||
+λ||β||
在这个公式中,有两个组成部分。第一个是最小二乘项,另一个是β-平方的λ倍,其中β是相关系数向量,与收缩参数一起添加到最小二乘项中以得到一个非常低的方差。
6. Lasso Regression套索回归
它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会就回归系数向量给出惩罚值项。此外,它能够减少变化程度并提高线性回归模型的精度。看看下面的公式:
L1=agrmin||y-xβ||
+λ||β||
Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是L1范数,而不是L2范数。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。
使用惩罚值越大,进一步估计会使得缩小值越趋近于零。这将导致要从给定的n个变量中选择变量。
如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7.ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。
Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
数据探索是构建预测模型的必然组成部分。在选择合适的模型时,比如识别变量的关系和影响时,它应该是首选的一步。
比较适合于不同模型的优点,可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows’ Cp准则。这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。
交叉验证是评估预测模型最好的方法。在这里,将你的数据集分成两份(一份做训练和一份做验证)。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。
如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中。
它也将取决于你的目的。可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。3
假定条件与内容
在数据分析中一般要对数据进行一些条件假定:
方差齐性
线性关系
效应累加
变量无测量误差
变量服从多元正态分布
观察独立
模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
误差项独立且服从(0,1)正态分布。
现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。
回归分析的主要内容为:
①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
②对这些关系式的可信程度进行检验。
③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量加入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。
回归分析研究的主要问题是:
(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量X对因变量Y有无影响;
(4)利用所求得的回归方程进行预测和控制。
参考技术A 相关系数r是用来衡量两个变量之间线性相关关系的方法,当r=0时,表示两变量间无线性相关关系,当0<|r|<1时,表示两变量存在一定程度的线性相关.且|r|越接近1,两变量间线性关系越大.故①正确;由R2计算公式可知,R2越小,说明残差平方和越大,则模型拟合效果越差.故②错误;由残差图的定义可③正确;在利用样本数据得到回归方程的过程中,不可避免的会产生各种误差,因此用回归方程得到的预报值只能是实际值的近似值.故④正确.故答案:①③④
一;经济变量就是指经济系统运行过程中随时都可以发生变化的量。比如在分析企业经济运行过程中,企业的成本、工资、利润都是经济变量;在分析区域经济发展运行态势时,区域的GDP、GNP以及它们的增长率也是经济变量。在经济分析和研究中常用的变量包括内生变量和外生变量、存量和流量。按照斯泰纳(1981)的观点,内生变量就是"一种理论内所要解释的变量",外生变量就是"一种理论内影响其他变量,但本身由该理论外的因素所决定的变量"。简单而言,内生变量是指经济体系内的因素所决定的变量,外生变量是指经济体系以外的因素所决定的变量。例如,投资、消费等在由国民收入、利息率这些经济体系内的因素决定时就是内生变量,而人口在由生物、自然、社会等经济体系以外的因素决定时就是外生变量。
二;两者对比;
1、内生变量与外生变量。外生变量(ExogenousVariable):由经济模型外部的其它经济变量所决定的经济变量。内生变量(InducedVariable):由经济模型内部的其它因素所决定的经济变量。内生变量和外生变量的划分不是机械的或一成不变的(由模型设计者根据具体情况进行决定)。外生变量是在模型之外决定的,内生变量是由模型自身决定的。
2、解释变量与被解释变量。被解释变量(explainedvariable):一定是模型的内生变量(因变量)。解释变量(explainingvariable):既包括外生变量,也包括一部分内生变量(自变量)
3、滞后变量与前定变量。滞后变量(laggedvariable):内生变量的前期值,是求解模型之前的已知量。前定变量(predetrminedvariable):将外生变量和滞后变量合称前定变量,即在求解之前需要确定的变量
4、控制变量与政策变量。控制变量(controlledvariable)。政策变量(policyvariable)。这两者在模型中一般表现为外生变量,但不是绝对的,在某些特殊情况下也会转变为内生变量
参考技术B 相关系数r是用来衡量两个变量之间线性相关关系的方法,当r=0时,表示两变量间无线性相关关系,当0<|r|<1时,表示两变量存在一定程度的线性相关.且|r|越接近1,两变量间线性关系越大.故①正确;由R2计算公式可知,R2越小,说明残差平方和越大,则模型拟合效果越差.故②错误;由残差图的定义可③正确;在利用样本数据得到回归方程的过程中,不可避免的会产生各种误差,因此用回归方程得到的预报值只能是实际值的近似值.故④正确.故答案:①③④本回答被提问者采纳 参考技术C 这个说法是错的

多元线性回归的计算

多元线性回归的计算模型

一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。

  设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:

  技术分享图片

  其中,b0为常数项,为回归系数,b1为固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为x1,xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:

    y = b0 + b1x1 + b2x2 + e

  建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:

  (1)自变量对因变量必须有显著的影响,并呈密切的线性相关;

  (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;

  (3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;

  (4)自变量应具有完整的统计数据,其预测值容易确定。

 

多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为

  技术分享图片

  解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得

  技术分享图片

  即

技术分享图片

 

以上是关于为啥在研究经济变量之间的非确定性关系时,回归分析是唯一可用的分析方法的主要内容,如果未能解决你的问题,请参考以下文章

逐步回归分析

简述变量间的相关分析都有哪些方法

数据挖掘-回归分析

利用python进行回归分析

方差分析和回归分析的异同是啥

数学建模:1.监督学习--回归分析模型