浅谈最小二乘法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈最小二乘法相关的知识,希望对你有一定的参考价值。

参考技术A

最小二乘法是回归分析的一种标准方法,它通过最小化每个方程式结果中的残差平方和来近似超定系统(方程组多于未知数的方程组)。

回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

最重要的应用是数据拟合。 最小二乘意义上的最佳拟合将残差平方的总和最小化(残差为:观察值与模型提供的拟合值之间的差)。 当问题在 自变量(x变量)中具有很大的不确定性 时,则简单回归和最小二乘法会出现问题。 在这种情况下,可以考虑拟合 变量误差模型 所需的方法,而不是最小二乘法。

最小二乘问题分为两类:线性或 普通最小二乘 和 非线性最小二乘 ,这取决于 残差在所有未知量中是否是线性的 。线性最小二乘问题发生在 统计回归分析 中,它有 解析解 。非线性问题通常是通过迭代优化来解决的,每次迭代系统都近似为线性系统,因此两种情况下的计算核心是相似的。

多项式最小二乘法 将因变量预测中的方差描述为自变量函数与拟合曲线的偏差。

当观测值来自 指数族 且满足温和条件时,最小二乘估计和 最大似然估计 是相同的。最小二乘法也可以由 矩估计 的方法导出。

下面的讨论主要是以 线性 函数的形式提出的,但是最小二乘法的使用对于更一般的函数族是有效和实用的。同时,通过迭代地应用局部二次逼近似然(通过 Fisher 信息 ),最小二乘法可用于拟合 广义线性模型 。

最小二乘法通常归功于 卡尔·弗里德里希·高斯 (Carl Friedrich Gauss,1795),但它首先由 阿德里安·玛丽·勒让德 (Adrien Marie Legendre,1805)发表。

目标包括调整模型函数的参数以最适合数据集。 一个简单的数据集由n个点(数据对) 组成,其中 是自变量, 是由观测值获得的因变量。模型函数具有 ,在向量 中保持m个可调参数。目的是为“最佳”拟合数据的模型找到参数值。 模型对数据点的拟合度通过其残差来度量,残差定义为因变量的实际值与模型预测的值之间的差: ,最小二乘法通过最小化残差平方和S来寻找最佳参数值: ,二维模型的一个例子是直线模型。y轴的截距表示为 ,斜率为 ,模型函数由 ,请参见线性最小二乘法,以获取该模型的完整示例。

一个数据点可以由多个自变量组成。例如,当将一个平面拟合到一组高度测量值时,平面是两个自变量的函数,例如x和z。在最一般的情况下,每个数据点可能有一个或多个自变量和一个或多个因变量。

下图是一个是一个残差图,说明了 的随机波动,显示了 这个线性模型是合适的, 是一个随即独立的变量。

如果残差点具有某种形状并且不是随机波动的,线性模型就不合适。例如,如果残差图如右图所示为抛物线形状,则为抛物线模型 对数据更加合适。抛物线模型的残差可以通过 计算。

这种回归公式只考虑因变量中的观测误差(但是可替代的 全最小二乘 回归可以解释这两个变量中的误差)。有两种截然不同的语境,具有不同的含义:

通过设置梯度为0求得平方和的最小值。因为模型包含m个参数,因此有m个梯度方程:

由 ,梯度方程可以推导为:

梯度方程适用于所有最小二乘问题。每一个问题都需要模型及其偏导数的特殊表达式。

当模型由参数的线性组合组成时,回归模型是线性模型,即:

式中 是x的函数。
令 ,并将自变量和因变量转换为矩阵X和Y,我们可以按以下方式计算最小二乘,注意D是所有数据的集合。

通过将损失梯度设置为零并求解 ,可以找到最小值。

最后,将损失的梯度设置为零,并求解 ,我们得到:

在某些情况下非线性最小二乘问题有一个 解析解 ,但通常情况下是没有的。在没有解析解的情况下,用数值算法求出使目标最小化的参数​的值。大多数算法都涉及到参数的初始值的选择。然后,迭代地对参数进行细化,即通过逐次逼近得到这些参数:

式中,上标k是迭代数,增量 的向量,称为位移向量。在一些常用算法中,每次迭代该模型都可以通过对 近似一阶 泰勒级数 展开来线性化:

Jacobian矩阵J是常数、自变量和参数的函数,因此它在每次迭代时都会改变。残差由:

为最小化 的平方和,将梯度方程置为0,求解 :

经过重新排列,形成m个联立线性方程组, 正规方程组

正规方程用矩阵表示法写成

这就是 高斯牛顿法 的定义公式。

在寻求非线性最小二乘问题的解时,必须考虑这些差异。

为了对结果进行统计检验,有必要对实验误差的性质作出假设。通常的假设是误差属于正态分布。 中心极限定理 支持这样的观点:在许多情况下,这是一个很好的近似。

然而,如果误差不是正态分布的,中心极限定理通常意味着只要样本足够大,参数估计就会近似正态分布。因此,鉴于误差均值独立于自变量这一重要性质,误差项的分布在回归分析中不是一个重要问题。具体来说,误差项是否服从正态分布并不重要。

在具有单位权重的最小二乘法计算中,或在线性回归中,第j个参数的方差 ,通常估计为:

其中,真实误差方差 由基于目标函数平方和最小值的估计值代替。分母,n−m,是统计自由度;请参见有效自由度以获取归纳。
如果参数的 概率分布 已知或渐近近似,则可以找到 置信限 。同样,如果残差的概率分布已知或假设,则可以对残差进行统计检验。如果已知或假设实验误差的概率分布,我们就可以导出因变量的任何线性组合的概率分布。当假设误差服从正态分布时,推断很容易,因此意味着参数估计和残差也将是正态分布的,这取决于自变量的值。

当Ω(残差的相关矩阵)的所有非对角项都为空时, 广义最小二乘法 的一个特例称为 加权最小二乘法 ;观测值的方差(沿协方差矩阵对角线)可能仍然不相等( 异方差 )。更简单地说,异方差是当 的方差取决于 的值,这会导致残差图产生“扇出”效应,使其朝向更大的 值,如下侧残差图所示。另一方面, 同构性 假设 和的 方差相等。

关于一组点的平均值的第一个主成分可以用最接近数据点的那条线来表示(用最接近的距离的平方来测量,即垂直于直线)。相比之下,线性最小二乘法只尝试最小化 方向上的距离。因此,虽然二者使用相似的误差度量,但线性最小二乘法是一种优先处理一维数据的方法,而PCA则同等对待所有维度。

tikhonov 正则化

在某些情况下,最小二乘解的正则化版本可能更可取。 Tikhonov正则化 (或 岭回归 )添加了一个约束,即参数向量的 L2范数 ,即参数向量的L2范数,不大于给定值。它可以通过添加 ,其中 是一个常数(这是约束问题的 拉格朗日 形式)。在 贝叶斯 背景下, 这相当于在参数向量上放置一个零均值正态分布的 先验

Lasso method

最小二乘法的另一种正则化版本是Lasso(least absolute shrinkage and selection operator),它使用 ,参数向量的L1范数,不大于给定值。(如上所述,这相当于通过添加惩罚项 对最小二乘法进行无约束最小化)。在贝叶斯背景下, 这相当于在参数向量上放置一个零平均 拉普拉斯 先验分布 。优化问题可以使用 二次规划 或更一般的 凸优化方法 ,以及由具体算法如 最小角度回归 算法。
Lasso 和岭回归的一个主要区别是,在岭回归中,随着惩罚的增加,所有参数都会减少但仍然保持非零;而在Lasso中,增加惩罚将导致越来越多的参数被驱动到零。这是Lasso相对于岭回归的一个优势, 因为驱动参数为零会从回归中取消选择特征 。因此,Lasso自动选择更相关的特征并丢弃其他特征,而岭回归永远不会完全丢弃任何特征。基于LASSO开发了一些 特征选择 技术,包括引导样本的Bolasso方法和分析不同 值对应的回归系数,对所有特征进行评分的FeaLect方法

L1正则化公式在某些情况下是有用的,因为它倾向于选择更多参数为零的解,从而给出依赖较少变量的解。因此,Lasso及其变体是 压缩传感 领域的基础。这种方法的一个扩展是 弹性网络正则化 。

From Wikipedia, the free encyclopedia

机器学习-最小二乘法

最小二乘法是机器学习中的基础知识点,一致对最小二乘法的理解不够深入,今天就花点时间来深入理解和探讨一下最小二乘法

最小二乘法,又称最小平方法,基本公式通俗来讲,二者先取个差值,在来个平方,最后搞一个和号上去,这就是最小二乘问题的思想,下面介绍下

最小二乘法

   我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面...

   对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

        (1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
        (2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
        (3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

  最常用的是普通最小二乘法( Ordinary  Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和)- 即采用平方损失函数。

  样本回归模型:

                  技术分享                   其中ei为样本(Xi, Yi)的误差

   平方损失函数:

                      技术分享

   则通过Q最小确定这条直线,即确定技术分享,以技术分享为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:

                   技术分享    

    根据数学知识我们知道,函数的极值点为偏导为0的点。

    解得:

                   技术分享

 

这就是最小二乘法的解法,就是求得平方损失函数的极值点。

 

最小二乘法分为线性和非线性两种,线性最小二乘法很好解决,可以将公式(1)变换为矩阵方程(公式2),最后直接求解矩阵方程即可,不需要迭代,这种解被称为“解析解”

 

技术分享(1)

技术分享(2)

 非线性最小二乘问题则不然,它要复杂得多,没有办法变换为矩阵方程形式,以至于它必须将问题化简为每一步均为可以直接求解的子问题,整个求解过程是迭代的。

线性最小二乘问题与非线性最小二乘的关系,就是非线性最小二乘问题的求解过程。

1. 对原问题中的每一个函数fi(x)在x0处进行一阶泰勒展开,因为一阶泰勒展开属于线性函数(公式3),于是通过这种手段,就可以将非线性最小二乘问题简化为线性最小二乘问题来求解。

技术分享               (3)

2. 对得到的线性最小二乘问题,进行直接求解。这里面涉及到两个矩阵,一个是雅克比矩阵(公式4),一个是赫森矩阵(公式5)。

技术分享                        (4)

技术分享(5)

3. 得到子问题的解析解xk+1之后(公式2),xk+1与xk之间便自然地建立了等式关系(公式6)。

技术分享(6)

4. 更新参数xk(k=k+1, k=1....n),回到步骤1,直到满足收敛条件,得到最优解x*

 

没错,就是讲非线性转化为线性问题去解决,下面说名几个注意点:

第一:步骤1中,一定要一阶泰勒展开,不能采用二阶以上,因为只有一阶泰勒展开才是线性函数,才能转换为线性最小二乘问题来直接求解。

第二:步骤2中,雅克比矩阵和赫森矩阵都是属于子问题的,不是原问题的。

第三:步骤3中,是为了得到新求解的参数xk+1与之前参数xk之间的关系,形成一种“链式反应”,也就是迭代了。

第四:步骤4中,收敛条件一般有1.梯度近乎为0。2.变量变化很小。3.目标函数值变化很小等。

第五:许多优化算法,都可以用于解决非线性最小二乘问题。

第六:函数fi(x)往往都是如下形式(公式7),千万别以为fi(x)就是hi(x)

 

技术分享(7)

 

解释完了,一团乱麻很正常,我们致力于应用,能理解更好,实在理解不了就理解应用场景,毕竟现在都是面向场景式编程。

说白了,最小二乘法可以得到平方损失函数最小的点,也就是全局最小,通俗点就是拟合度比较好,所以我们一般都是用于拟合数据建立线性模型用于预测

下面给出线性最小二乘法的Java实现:

技术分享
package org.yujoo.baas.base;

/** 
 * 最小二乘法 y=ax+b 
 *  
 * @author yu joo
 *  
 */  
public class Theleastsquaremethod {  
  
    private static double a;  
  
    private static double b;  
  
    private static int num;  
  
    /** 
     * 训练 
     *  
     * @param x 
     * @param y 
     */  
    public static void train(double x[], double y[]) {  
        num = x.length < y.length ? x.length : y.length;  
        calCoefficientes(x,y);  
    }  
  
    /** 
     * a=(NΣxy-ΣxΣy)/(NΣx^2-(Σx)^2) 
     * b=y(平均)-a*x(平均) 
     * @param x 
     * @param y 
     * @return 
     */  
    public static void calCoefficientes (double x[],double y[]){  
        double xy=0.0,xT=0.0,yT=0.0,xS=0.0;  
        for(int i=0;i<num;i++){  
            xy+=x[i]*y[i];  
            xT+=x[i];  
            yT+=y[i];  
            xS+=Math.pow(x[i], 2.0);  
        }  
        a= (num*xy-xT*yT)/(num*xS-Math.pow(xT, 2.0));  
        b=yT/num-a*xT/num;  
    }  
  
    /** 
     * 预测 
     *  
     * @param xValue 
     * @return 
     */  
    public static double predict(double xValue) {  
        System.out.println("a="+a);  
        System.out.println("b="+b);  
        return a * xValue + b;  
    }  
  
    public static void main(String args[]) {  
        double[] x = { 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 } ;    
        double[] y = {23 , 44 , 32 , 56 , 33 , 34 , 55 , 65 , 45 , 55 } ;    
        Theleastsquaremethod.train(x, y);  
        System.out.println(Theleastsquaremethod.predict(10.0));  
    }  
  
}  
技术分享

 当然如果你不想写也可以使用Apache开源库commons math,提供的功能更强大,

http://commons.apache.org/proper/commons-math/userguide/fitting.html

 

<dependency>  
          <groupId>org.apache.commons</groupId>  
            <artifactId>commons-math3</artifactId>  
            <version>3.5</version>  
 </dependency>  

 

技术分享
private static void testLeastSquareMethodFromApache() {  
        final WeightedObservedPoints obs = new WeightedObservedPoints();  
        obs.add(-3, 4);  
        obs.add(-2, 2);  
        obs.add(-1, 3);  
        obs.add(0, 0);  
        obs.add(1, -1);  
        obs.add(2, -2);  
        obs.add(3, -5);  
  
        // Instantiate a third-degree polynomial fitter.  
        final PolynomialCurveFitter fitter = PolynomialCurveFitter.create(3);  
  
        // Retrieve fitted parameters (coefficients of the polynomial function).  
        final double[] coeff = fitter.fit(obs.toList());  
        for (double c : coeff) {  
            System.out.println(c);  
        }  
    }
技术分享

最小二乘法使用的前提条件是数据连续的而非离散,最常使用的场景就是回归模型,在监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。最小二乘法就是回归问题解决的基本方法,同时,最小二乘法在数学上称为曲线拟合。

 

参考1:最优化理论与算法

参考2:利用Levenberg_Marquardt算法求解无约束的非线性最小二乘问题~

参考3:利用信赖域算法求解无约束的非线性最小二乘问题~

参考4:http://blog.csdn.NET/wsj998689aa/article/details/41558945

 
 
 
 


以上是关于浅谈最小二乘法的主要内容,如果未能解决你的问题,请参考以下文章

什么是最小二乘法回归分析?

怎么用sklearn 解决最小二乘法

什么是加权最小二乘法,它的基本思想是什么

谁懂迭代加权最小二乘法,能否给讲下原理

偏最小二乘法的岭回归分析

什么是加权最小二乘法,它可以解决什么问题?