第3章线性回归
Posted weiququ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第3章线性回归相关的知识,希望对你有一定的参考价值。
- 简单线性回归
方程式:
![](https://image.cha138.com/20210606/54cd46d4f78549a9be4e1ab4c321ef7c.jpg)
![](https://image.cha138.com/20210606/9f0a84d848d641f3ae248699c1eafd70.jpg)
1.1 估计参数
代表第i 个残差第i 个观测到的响应值和第i 个用线性模型预测出的响应值之间的差距
残差平方和(residual sum of squares ,RSS):
![](https://image.cha138.com/20210606/48b7ae1375154000b92d15c9f035cc33.jpg)
等价于:
![](https://image.cha138.com/20210606/4cc84bf4b1ab490a94b9e09e5f7b5fa4.jpg)
最小二乘法选择β0和β1来使RSS达到最小。通过微积分运算,使RSS最小的参数估计值为:
![](https://image.cha138.com/20210606/1cd0b58a4b7f425e8dadb3bb8b1d44ba.jpg)
1.2评估系数估计值的准确性
X和Y之间的真实关系为:![]()
,其中![]()
是均值为零的随机误差项,
![](https://image.cha138.com/20210606/3d85ce27ce6f4c2c8f676a74f9b5143b.jpg)
![](https://image.cha138.com/20210606/14535a3f5ab442cf9a94ed0adb8b0f74.jpg)
样本均值μ^ 的标准误差(standard error ,写作SE(μ^) ):
![](https://image.cha138.com/20210606/482f23ea8841462da55439cba286b333.jpg)
其中, σ 是变量Y 的每个实现值Yi 的标准差。标准误差告诉我们估计μ^偏离μ的实际值的平均量。
计算β0和β1 的标准误差:
![](https://image.cha138.com/20210606/7904f91e0e454f4c9a9fc9171303023d.jpg)
其中![]()
![](https://image.cha138.com/20210606/61867fe6f5334017b6428239de2835e6.jpg)
![](https://image.cha138.com/20210606/61867fe6f5334017b6428239de2835e6.jpg)
对![]()
的估计被称为残差标准差![]()
![](https://image.cha138.com/20210606/7f1cb69812784225b4f2f96419459fe9.jpg)
![](https://image.cha138.com/20210606/9b3a00945af54d45b0fbf96893330ab5.jpg)
![](https://image.cha138.com/20210606/7f1cb69812784225b4f2f96419459fe9.jpg)
标准误差可用于计算置信区间。β1 的95% 置信区间约为: ![]()
![](https://image.cha138.com/20210606/280c4e4f11bc4d09b2cfc281b6d69f8d.jpg)
![](https://image.cha138.com/20210606/280c4e4f11bc4d09b2cfc281b6d69f8d.jpg)
β0的95% 置信区间约为:
![](https://image.cha138.com/20210606/33c48adf404f40aea804d2bda2381c56.jpg)
标准误差也可以用来对系数进行假设检验:
![](https://image.cha138.com/20210606/9f7d278623d64a0787c19e256046ff61.jpg)
t统计量:
![](https://image.cha138.com/20210606/1ee2b5c48e7049d5acab3e7e6a582d82.jpg)
p-value很小的时候拒绝零假设,X和Y之间存在关系。典型的拒绝零假设的临界p 值是5% 或1%
1.3评价模型的准确性
判断线性回归的拟合质量通常用两个相关的量:残差标准差(RSE)和R^2统计量。
残差标准差计算公式:
![](https://image.cha138.com/20210606/0193c223e9964401abc4e141678f2935.jpg)
R^2 统计量衡量了X 和Y 之间的线性关系。相关性的定义为:
![](https://image.cha138.com/20210606/f12a8d7728f14fee93e59483363e3c9d.jpg)
r = Cor(X,Y) ,在简单的线性回归中r^2 = R^2
2. 多元线性回归
![](https://image.cha138.com/20210606/1df96e7c5ec0479dbbd39416c74a8b2a.jpg)
2.1 估计回归系数
![](https://image.cha138.com/20210606/ef4718c09aa14049b36f4c309ba41df5.jpg)
同样使用最小二乘法来进行参数的估计,选择β0, β1, . . . , βp使残差平方和最小:
(1)假设检验:
![](https://image.cha138.com/20210606/738a153294704340b3e4f241adaff6e7.jpg)
当响应变量与预测变量无关, F 统计量应该接近1 。一个较大的F 统计量表明,至少有一个广告媒体与sales 相关
(2)选定重要变量
向前选择、向后选择、混合选择
向前选择:从零模型开始,建立简单的线性回归模型,并把使RSS 最小的变量添加到零模型中。然后再加入一个新变量,得到新的双变量模型,加人的变量是使新模型的RSS 最小的变量。这一过程持续到满足某种停止规则为止。
向后选择:从包含所有变量的模型开始,并删除p值最大的变量,再重新拟合,再删除p值最大的变量,持续到满足某种停止规则为止
3. 回归模型中的注意事项
(1)outlier离群点:Yi 远离模型预测值的点,如图中的点20
![](https://image.cha138.com/20210606/b5eb3216908a44ce8e88587124c36e01.jpg)
(2)High Leverage Points高杠杆点: 表示观测点X i是异常的,如图中的点41
![](https://image.cha138.com/20210606/44b94384011042d4bc9c9f96d9b386ea.jpg)
(3)共线性
共线性( collinearity) 是指两个或更多的预测变量高度相关。
使用方差膨胀因子(variance inflation factor , VIF)来评估多重共线性:
![](https://image.cha138.com/20210606/9ef6ea8170dc4a0699bd6186eaf45b9e.jpg)
解决办法:
1.从回归中剔除一个问题变量
2.把共线变量组合成一个单一的预测变量
以上是关于第3章线性回归的主要内容,如果未能解决你的问题,请参考以下文章
[机器学习与scikit-learn-29]:算法-回归-普通线性回归LinearRegression拟合线性分布数据的代码示例
[机器学习与scikit-learn-31]:算法-回归-线性模拟拟合拟合非线性数据-概述
[机器学习与scikit-learn-21]:算法-逻辑回归-多项式非线性回归PolynomialFeatures与代码实现