机器学习-最小二乘法

Posted 2020-09-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习-最小二乘法相关的知识，希望对你有一定的参考价值。

最小二乘法是机器学习中的基础知识点，一致对最小二乘法的理解不够深入，今天就花点时间来深入理解和探讨一下最小二乘法

最小二乘法，又称最小平方法，基本公式通俗来讲，二者先取个差值，在来个平方，最后搞一个和号上去，这就是最小二乘问题的思想，下面介绍下

最小二乘法

我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面...

对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

（1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
（2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
（3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

　最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。

　样本回归模型：

技术分享其中e_i为样本（X_i,Y_i）的误差

平方损失函数：

技术分享

则通过Q最小确定这条直线，即确定技术分享，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。求Q对两个待估参数的偏导数：

技术分享

根据数学知识我们知道，函数的极值点为偏导为0的点。

解得：

技术分享

这就是最小二乘法的解法，就是求得平方损失函数的极值点。

最小二乘法分为线性和非线性两种，线性最小二乘法很好解决，可以将公式（1）变换为矩阵方程（公式2），最后直接求解矩阵方程即可，不需要迭代，这种解被称为“解析解”

技术分享（1）

（2）

非线性最小二乘问题则不然，它要复杂得多，没有办法变换为矩阵方程形式，以至于它必须将问题化简为每一步均为可以直接求解的子问题，整个求解过程是迭代的。

线性最小二乘问题与非线性最小二乘的关系，就是非线性最小二乘问题的求解过程。

1. 对原问题中的每一个函数fi(x)在x0处进行一阶泰勒展开，因为一阶泰勒展开属于线性函数（公式3），于是通过这种手段，就可以将非线性最小二乘问题简化为线性最小二乘问题来求解。

（3）

2. 对得到的线性最小二乘问题，进行直接求解。这里面涉及到两个矩阵，一个是雅克比矩阵（公式4），一个是赫森矩阵（公式5）。

（4）

（5）

3. 得到子问题的解析解xk+1之后（公式2），xk+1与xk之间便自然地建立了等式关系（公式6）。

（6）

4. 更新参数xk（k=k+1， k=1....n），回到步骤1，直到满足收敛条件，得到最优解x*

没错，就是讲非线性转化为线性问题去解决，下面说名几个注意点：

第一：步骤1中，一定要一阶泰勒展开，不能采用二阶以上，因为只有一阶泰勒展开才是线性函数，才能转换为线性最小二乘问题来直接求解。

第二：步骤2中，雅克比矩阵和赫森矩阵都是属于子问题的，不是原问题的。

第三：步骤3中，是为了得到新求解的参数xk+1与之前参数xk之间的关系，形成一种“链式反应”，也就是迭代了。

第四：步骤4中，收敛条件一般有1.梯度近乎为0。2.变量变化很小。3.目标函数值变化很小等。

第五：许多优化算法，都可以用于解决非线性最小二乘问题。

第六：函数fi(x)往往都是如下形式（公式7），千万别以为fi(x)就是hi(x)

（7）

解释完了，一团乱麻很正常，我们致力于应用，能理解更好，实在理解不了就理解应用场景，毕竟现在都是面向场景式编程。

说白了，最小二乘法可以得到平方损失函数最小的点，也就是全局最小，通俗点就是拟合度比较好，所以我们一般都是用于拟合数据建立线性模型用于预测

下面给出线性最小二乘法的Java实现：

package org.yujoo.baas.base;

/** 
 * 最小二乘法 y=ax+b 
 *  
 * @author yu joo
 *  
 */  
public class Theleastsquaremethod {  
  
    private static double a;  
  
    private static double b;  
  
    private static int num;  
  
    /** 
     * 训练 
     *  
     * @param x 
     * @param y 
     */  
    public static void train(double x[], double y[]) {  
        num = x.length < y.length ? x.length : y.length;  
        calCoefficientes(x,y);  
    }  
  
    /** 
     * a=(NΣxy-ΣxΣy)/(NΣx^2-(Σx)^2) 
     * b=y(平均)-a*x（平均） 
     * @param x 
     * @param y 
     * @return 
     */  
    public static void calCoefficientes (double x[],double y[]){  
        double xy=0.0,xT=0.0,yT=0.0,xS=0.0;  
        for(int i=0;i<num;i++){  
            xy+=x[i]*y[i];  
            xT+=x[i];  
            yT+=y[i];  
            xS+=Math.pow(x[i], 2.0);  
        }  
        a= (num*xy-xT*yT)/(num*xS-Math.pow(xT, 2.0));  
        b=yT/num-a*xT/num;  
    }  
  
    /** 
     * 预测 
     *  
     * @param xValue 
     * @return 
     */  
    public static double predict(double xValue) {  
        System.out.println("a="+a);  
        System.out.println("b="+b);  
        return a * xValue + b;  
    }  
  
    public static void main(String args[]) {  
        double[] x = { 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 } ;    
        double[] y = {23 , 44 , 32 , 56 , 33 , 34 , 55 , 65 , 45 , 55 } ;    
        Theleastsquaremethod.train(x, y);  
        System.out.println(Theleastsquaremethod.predict(10.0));  
    }  
  
}

当然如果你不想写也可以使用Apache开源库commons math，提供的功能更强大，

http://commons.apache.org/proper/commons-math/userguide/fitting.html

<dependency>  
          <groupId>org.apache.commons</groupId>  
            <artifactId>commons-math3</artifactId>  
            <version>3.5</version>  
 </dependency>

private static void testLeastSquareMethodFromApache() {  
        final WeightedObservedPoints obs = new WeightedObservedPoints();  
        obs.add(-3, 4);  
        obs.add(-2, 2);  
        obs.add(-1, 3);  
        obs.add(0, 0);  
        obs.add(1, -1);  
        obs.add(2, -2);  
        obs.add(3, -5);  
  
        // Instantiate a third-degree polynomial fitter.  
        final PolynomialCurveFitter fitter = PolynomialCurveFitter.create(3);  
  
        // Retrieve fitted parameters (coefficients of the polynomial function).  
        final double[] coeff = fitter.fit(obs.toList());  
        for (double c : coeff) {  
            System.out.println(c);  
        }  
    }

最小二乘法使用的前提条件是数据连续的而非离散，最常使用的场景就是回归模型，在监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面。最小二乘法就是回归问题解决的基本方法，同时，最小二乘法在数学上称为曲线拟合。

参考1：最优化理论与算法

参考2：利用Levenberg_Marquardt算法求解无约束的非线性最小二乘问题~

参考3：利用信赖域算法求解无约束的非线性最小二乘问题~

参考4：http://blog.csdn.NET/wsj998689aa/article/details/41558945

以上是关于机器学习-最小二乘法的主要内容，如果未能解决你的问题，请参考以下文章