多元线性回归模型

Posted 2022-08-06 Twilight Sparkle.

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多元线性回归模型相关的知识，希望对你有一定的参考价值。

前言：多元线性回归总体思路和一元线性回归相同，都是代价函数+梯度下降，所以中心思想参考链接：一元线性回归模型及预测_Twilight Sparkle.的博客-CSDN博客

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。

在开始之前，你可能需要先了解以下知识：

前置知识

向量化

当我们想自己实现向量的点乘时，通常会想到利用for循环来完成，例如有，可以写为：

    x=0
    for i in range(a.shape[0]):
        x = x + a[i] * b[i]
    return x

然而，Python的Numpy库提供了一个dot()函数可以帮助我们进行向量化计算，作用是加快向量的运算速度，在数据量较大时效率会明显提高。其原理是Numpy利用了计算机底层硬件单指令多数据(SIMD)管道，这在数据集非常大的机器学习中至关重要。所以，向量化是机器学习中一个非常重要和实用的方法。

下图是使用Numpy的dot函数与自己利用for循环实现的向量点乘分别对长度各为10000000的向量a、b点乘运行时间比较：

特征缩放

为什么要特征缩放？

当有多个特征时，在有的算法中，我们需要使这些特征具有相似的尺度（无量纲化）。

这里介绍特征缩放在多元线性回归中的作用。

拿下面”问题引入“里得数据来说，各个特征的范围差距太大，我们将每个特征对价格的影响可视化，可以看出哪些因素对价格影响更大。会得到以下图像：

由于各个特征的数量差距过大，代价函数的等高线将会是扁长的，在梯度下降时也会是曲折的，而且计算时长相对会很长（因为学习率是通用的，为了照顾尺度大的特征，学习率必须设置的很小，学习率越小，下降速度就越慢）：

特征缩放将每个特征的范围统一，可以使梯度下降变”平滑“，并且大大提高计算速度（因为可以调大学习率）。

特征缩放的方法

特征缩放的方法有许多种，这里介绍两种：

均值归一化

公式：，其中，为样本中该特征的均值。

# 均值归一化
def MeanNormalization(x):
   '''x为列表'''
    return [(float(i)-np.mean(x))/float(max(x)-min(x)) for i in x]

Z-score标准化(推荐)

公式：

其中，为矩阵中的特征（或列),为样本序号。为特征j的均值，为特征j的标准差。

# Z-score标准化
def Zscore(X):
    '''x是(m,n)的矩阵，m为样本个数，n为特征数目'''
    # 找每列(特征)均值
    mu = np.mean(X,axis=0)
    # 找每列(特征)标准差
    sigma = np.std(X,axis=0)
    X_norm = (X - mu) / sigma

    return X_norm

或者使用sklearn:

from sklearn import preprocessing

# X为同上矩阵
X_norm = preprocessing.scale(X)

问题引入

示例：现在你有以下数据，请利用这些值构建一个线性回归模型，并预测一栋1200平米，3间卧室，1层，年龄为40年的房屋的价格。

面积(平方)	卧室数量	楼层数	房屋年龄	价格（1000s dollars）
952	2	1	65	271.5
1244	3	2	64	300
1947	3	2	17	509.8
....	....	....	....	....

多元线性回归模型

多元线性回归函数

对于上面提到的数据，一共有四种特征（面积，卧室数量，楼层，房屋面积），记为,,,,每个特征分别需要一个,所以对应的线性回归函数为.

推广到一般多元线性回归函数，即：

, 其中，n为特征数量。

观察,我们发现可以将看作一列，看作一列。于是又可以写为：, （注意为点乘）

这样我们的目标便是利用已知数据通过梯度下降算法找到最合适的和。

转化为矩阵

我们可以将训练集转化为的矩阵，m表示示例，n表示特征，于是训练集X可以写为：

注：表示含有第i个示例的向量，表示第i个示例的第j个特征。因为每种特征对应一个,所以有向量：