机器学习具体解释线性回归梯度下降最小二乘的几何和概率解释
Posted blfbuaa
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习具体解释线性回归梯度下降最小二乘的几何和概率解释相关的知识,希望对你有一定的参考价值。
线性回归
即线性拟合,给定N个样本数据
採用斯坦福大学公开课的样例:假如一套房子的价格仅仅考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,如今拿到手有m个样本,例如以下图所看到的。
此例中。输入
我们採用
令
如今的问题是怎样选择
最小二乘代价函数
採用最小二乘法定义代价函数
如今问题转化为代价函数
梯度下降:
梯度下降的思想是沿着函数负梯度方向,不断更新
1.初始化
θ 值;
2.更新θ 值,使得J(θ) 值更小 :θ:=θ?α?θJ(θ) 。
3.假设J(θ) 值能够继续降低,返回第2步;
当中
对于单个样本数据,则更新方法为
关于梯度下降与梯度上升:
注意到,我们上述求偏导数得到(hθ(x)?y)xj ,此方向为梯度上升方法,因为我们要求J(θ) 的最小值,所以应沿着负梯度方向,即θj:=θj?α(hθ(x)?y)xj ,若提取负号,就变为θj:=θj+α(y?hθ(x))xj ,尽管变为正号,仍然是沿着负梯度方向,仅仅是公式形式变了。在《机器学习实战》中。就採用的后一种形式θj:=θj+α(y?hθ(x))xj ,在那本书里被称为梯度上升,实际上仍然为负梯度方向。
1.批梯度下降(batch gradient descent)
上述为批梯度下降
在学习率
可是对于样本集非常大的情况下,此种算法必定导致效率非常低,因为每一次对
2.随机梯度下降(stochastic gradient descent)
算法的长处是,遍历整个数据集。每一次更新
3.mini-batch梯度下降
把批梯度下降与随机梯度下降算法折中。即每次採用若干样本的梯度综合,更新
解析式求解
改写
令
解得
当
一种简单的正则化项为:
最小二乘法的概率解释与几何解释
1.概率解释
假定原始拟合函数为:
写法
因为假定噪声因子之间
改成对数释然函数为:
我们目的要最大化释然函数。即要求最小化第二项
採用最小二乘的方法作为优化目标即潜在的使用了最大释然预计的方法。
2.几何解释
以下从几何角度解释最小二乘法的原理:为了结合以下的图形解释,须要改变一下数据的表示方法。
假定样本量的数目为
1.全部样本目标真实值
2.全部样本的特征数据x构成一个N×M的矩阵X;矩阵X的第j个列向量记维
3.假定真实最优參数为
我们的目的是寻找最好的拟合參数
子空间
局部加权回归(LWR)
LWR算法是非參数模型的一种。因为每一次预測新的数据,都须要採用原始样本计算一次,必定降低了效率。线性回归算法属于參数模型的一种,当得到最优參数
最小二乘法的目标(代价)函数是
而局部加权回归通过增大预測的数据
局部加权回归算法:
当中ω(i)为第i个样本的权重
一种经常使用的权重分布函数为。相似高斯分布曲线:
參数τ控制偏离预測点距离权重的下降幅度。
參考:机器学习公开课—Andrew Ng
以上是关于机器学习具体解释线性回归梯度下降最小二乘的几何和概率解释的主要内容,如果未能解决你的问题,请参考以下文章