机器学习40讲学习笔记-11基础线性回归
Posted bohu83
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习40讲学习笔记-11基础线性回归相关的知识,希望对你有一定的参考价值。
一 序
本文属于极客时间机器学习40讲学习笔记系列。
11基础线性回归:一元与多元
线性模型最大的优点不是便于计算,而是便于解释。之前的课证明了当噪声满足正态分布时,基于最小二乘法(least squares)的线性回归和最大似然估计是等价的。
线性回归的数学表达式被写成
讨论几何意义时,这个表达式要被改写成:
当输出被写成其背后的寓意是每个包含若干输入属性和一个输出结果的样本都被视为一个整体,误差分散在不同的样本点上;而当输出被写成 时,其背后的寓意是每个单独属性在所有样本点上的取值被视为一个整体,误差分散在每个不同的属性上。数据不变,只是观察角度的变化。
最小二乘法的几何意义:计算高维空间上的输出结果在由所有属性共同定义的低维空间上的正交投影(orthogonal projection)
下面是老师的说明过程,熟悉的可忽略。
假设数据集中共有 N 个样本,那么 xT 就变成了 N×(n+1) 维的数据矩阵 X,它的每一行表示的都是同一个样本的不同属性,每一列则表示不同样本中的相同属性。如果待拟合数据的特性完美到任意两个属性都线性无关的话,X 就可以看成一个由它的所有列向量所张成的空间。
一般来说,属性的数目 n 会远远小于数据的数目 N,因此 X 张成的是 N 维空间之内的 n 维生成子空间,或者叫 n 维超平面。这个超平面的每一个维度都对应着数据集的一个列向量。理想条件下,输出 y 作为属性的线性组合,也应该出现在由数据属性构成的超平面上。但受噪声的影响,真正的 y 是超平面之外的一个点,这时就要退而求其次,在超平面上找到离 y 最近的点作为最佳的近似。
在上图中,黄色区域表示由所有属性张成的超平面;黑色向量 x1 和天蓝色向量 x2 表示输入属性;红色实线 y 表示真实输出,水平的红色虚线 表示数据的最优估计值(属性的线性组合);垂直的红色虚线表示 y 与 的残差,它与超平面正交。
要找的最佳近似 就是 y 在超平面上的投影,而最佳近似所对应的系数 就是线性回归的解,点 和 y 之间的距离就是估计误差,也叫残差(residual),它就是最小二乘法最小化的对象,其表达式是。对参数 求导不难得到,能够使均方误差最小化的参数 应该满足
接着,讲解了可解释性。
例子是足球队的,球员的评分就应该和球队的成绩呈正相关(就是输入X是 球员成绩,输出Y是球队成绩),使用 StatsModels 拟合模型。
相关指标:t 代表 t 统计量(t-statistic),表示了参数的估计值和原始假设值之间的偏离程度。在线性回归中通常会假设待拟合的参数值为 0,此时的 t 统计量就等于估计值除以标准误。当数据中的噪声满足正态分布时,t 统计量就满足 t 分布,其绝对值越大意味着参数等于 0 的可能性越小,拟合的结果也就越可信。
p 值(p-value)是在当原假设为真时,数据等于观测值或比观测值更为极端的概率。简单地说,p 值表示的是数据与一个给定模型不匹配的程度,p 值越小,说明数据和原假设的模型越不匹配,也就和计算出的模型越匹配。在这个例子里,原假设认为待估计的参数等于 0,而接近于 0 的 p 值就意味着计算出的参数值得信任。
但这个例子只是线性回归的一个特例,它特殊在输出的因变量只与单个的输入自变量存在线性关系,这种模型被称为简单线性回归(simple linear regression)。更一般的情况是因变量由多个自变量共同决定,对这些自变量同时建模就是多元线性回归(multivariate linear regression)。
多元线性回归指标:F 统计量(F-statistic)主要应用在多元回归中,它检验的原假设是所有待估计的参数都等于 0,这意味着只要有一个参数不等于 0,原假设就被推翻。F 统计量越大意味着原假设成立的概率越低,理想的 F 值应该在百千量级。可在上面的多元回归中,F 统计量仅为 34.57,这就支持了 p 值的结论:估计出的参数的统计学意义并不明显。
机器学习与统计学的区别在于机器学习重于预测,统计学则重于解释。
以上是关于机器学习40讲学习笔记-11基础线性回归的主要内容,如果未能解决你的问题,请参考以下文章
斯坦福吴恩达教授机器学习公开课第二讲笔记——有/无监督学习+线性回归