机器学习方法:回归:稀疏与正则约束ridge regression,Lasso

Posted 大饼博士X

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习方法:回归:稀疏与正则约束ridge regression,Lasso相关的知识,希望对你有一定的参考价值。

欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld

“机器学习方法“系列,我本着开放与共享(open and share)的精神撰写,目的是让更多的人了解机器学习的概念,理解其原理,学会应用。希望与志同道合的朋友一起交流,我刚刚设立了了一个技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入,在交流中拉通——算法与技术,让理论研究与实际应用深度融合;也希望能有大牛能来,为大家解惑授业,福泽大众。推广开放与共享的精神。如果人多我就组织一些读书会,线下交流。

本节的内容需要依赖上一节已经讲了的机器学习:概念到理解(一):线性回归,线性回归的模型是这样的,对于一个样本 xi ,它的输出值是其特征的线性组合:

f(xi)=m=1pwmxim+w0=wTxi
其中, w0 称为截距,或者bias,上式中通过增加 xi0=1 w0 也吸收到向量表达中了,简化了形式,因此实际上 xi p+1 维度。

线性回归的目标是用预测结果尽可能地拟合目标label,用最常见的Least square作为loss function:

J(w)=1ni=1n(yif(xi))2=1nyXw2
可以直接求出最优解:
w=(XTX)1XTy
看起来似乎很简单,但是在实际使用的过程中会有不少问题,其中一个主要问题就是上面的协方差矩阵不可逆时,目标函数最小化导数为零时方程有无穷解,没办法求出最优解。尤其在 p>n 时,必然存在这样的问题,这个时候也存在overfitting的问题。这个时候需要对 w 做一些限制,使得它的最优解空间变小,也就是所谓的regularization,正则。

ridge regression

最为常见的就是对w的模做约束,如ridge regression,岭回归,就是在线性回归的基础上加上 l2 -norm的约束,loss function是(习惯上一般会去掉前面线性回归目标函数中的常数项 1n ,同时为了后面推导的简洁性会加上一个 12 ):
JR(w)=12yXw2+λ2w2
有解析解:
w^R=(XTX+λI)1XTy

其中 λ>0 是一个参数,有了正则项以后解就有了很好的性质,首先是对 w 的模做约束,使得它的数值会比较小,很大程度上减轻了overfitting的问题;其次是上面求逆部分肯定可以解,在实际使用中ridge regression的作用很大,通过调节参数λ,可以得到不同的回归模型。

实际上ridge regression可以用下面的优化目标形式表达:

minw12yXw2,s.t.w2<θ
也就是说,我依然优化线性回归的目标,但是条件是 w 的模长不能超过限制θ。上面两种优化形式是等

以上是关于机器学习方法:回归:稀疏与正则约束ridge regression,Lasso的主要内容,如果未能解决你的问题,请参考以下文章

r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

笔记︱范数正则化L0L1L2-岭回归&Lasso回归(稀疏与特征工程)

L1和L2正则

线性模型的正则化

线性模型的正则化

机器学习中正则化项L1和L2的直观理解