现代信号处理 07 - 正则化

Posted Ciaran-byte

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了现代信号处理 07 - 正则化相关的知识,希望对你有一定的参考价值。

正则化 Regularization

1. 问题引入

1.1 拟合的准确性和过拟合

  现在我们有一些数据,我们希望对数据进行拟合。拟合的过程就是一个建模的过程。

  通常我们并不知道f(x)和x的关系,我们猜测这是个线性关系,在最小均方误差意义下,最小二乘就是最好的线性估计。

  但是线性的,并不一定是最好的,因为我很多点并不在拟合的直线(红色)上。如果我们希望把这些点全部利用起来,比如我们用分段线性的方法,构造了新的拟合曲线(黄色)。

  拟合没有好坏之分,对于现在的这些数据,黄色曲线更加贴切,但是,如果我们使用黄色曲线去继续做数据预测,预测结果很难做到准确,因为黄色的曲线的拟合做过了,过于要求把现有的数据给用上了。很大程度上,过拟合产生的根本原因就是,模型过于复杂。

M o d e l i n g ⇓ O v e r f i t ⇓ O v e r c o m p l e x Modeling \\\\ \\Downarrow \\\\ Overfit\\\\ \\Downarrow\\\\ Overcomplex ModelingOverfitOvercomplex

  模型过于复杂之后,预测就会不准确,因为模型的可用度降低,我们也没有从根本上抓住数据产生的规律

1.2 Bias-Variance Trade-off

  现在我们换一个角度来考虑拟合的事情。就是Bias-Variance Trade-Off的角度。我们的目标是通过数据x,搞清楚f(x)是什么,我们利用现有的数据做训练集,产生一个拟合。然后通过拟合结果可以产生预测。预测数据就是用来与验证集一起做检验的

B i a s − V a r i a n c e T r a d e − o f f D a t a ( T r a i n i n g ) ( F i t t i n g ) P r e d i c t i o n ( T e s t i n g ) Bias-Variance Trade-off\\\\ Data(Training) \\\\ (Fitting) \\\\ Prediction(Testing) BiasVarianceTradeoffData(Training)(Fitting)Prediction(Testing)

  我们把数据标记为D,预测用的数据标记为D。我们所做的工作就是产生基于D的一个函数,然后对检验数据进行检验。

⇒ g D ( Z ) \\Rightarrow g_D(Z) gD(Z)

  我们希望新的数据表现,与我们预测的数据的表现是一致的,因此有目标函数

( g D ( Z ) − f ( Z ) ) 2 (g_D(Z) - f(Z))^2 (gD(Z)f(Z))2
  我们希望估计误差能够达到最小。同时,由于训练数据D和预测数据Z都是随机变量,所以,这里我们要取期望。

m i n E D , Z [ ( g D ( Z ) − f ( Z ) ) 2 ] minE_{D,Z}[(g_D(Z) - f(Z))^2] minED,Z[(gD(Z)f(Z))2]

  上式可以转化为条件期望

E D , Z [ ( g D ( Z ) − f ( Z ) ) 2 ] = E Z [ E D ∣ Z ( ( g D ( Z ) − f ( Z ) ) 2 ) ] E_{D,Z}[(g_D(Z) - f(Z))^2]=E_{Z}[E_{D|Z}((g_D(Z) - f(Z))^2)] ED,Z[(gD(Z)f(Z))2]=EZ[EDZ((gD(Z)f(Z))2)]

  我们对式子进行变形

E Z [ E D ∣ Z ( ( g D ( Z ) − f ( Z ) ) 2 ) ] = E Z [ E D ∣ Z ( ( g D ( Z ) − g ˉ ( Z ) + g ˉ ( Z ) − f ( Z ) ) 2 ) ] E_{Z}[E_{D|Z}((g_D(Z) - f(Z))^2)] = E_{Z}[E_{D|Z}((g_D(Z) -\\bar g(Z)+\\bar g(Z)- f(Z))^2)] \\\\ EZ[EDZ((gD(Z)f(Z))2)]=EZ[EDZ((gD(Z)gˉ(Z)+gˉ(Z)f(Z))2)]

  其中

g ˉ ( Z ) = E D ( g D ( Z ) ) \\bar g(Z) = E_D(g_D(Z)) gˉ(Z)=ED(gD(Z))

E Z [ E D ∣ Z ( ( g D ( Z ) − g ˉ ( Z ) + g ˉ ( Z ) − f ( Z ) ) 2 ) ] = E Z [ E D ∣ Z ( ( g D ( Z ) − g ˉ ( Z ) ) 2 + E D ∣ Z ( ( g ˉ ( Z ) − f ( Z ) ) 2 ) + 2 ∗ E D ∣ Z ( g D ( Z ) − g ˉ ( Z ) ) ∗ ( g ˉ ( Z ) − f ( Z ) ) ] ( 1 ) E_{Z}[E_{D|Z}((g_D(Z) -\\bar g(Z)+\\bar g(Z)- f(Z))^2)] \\\\ = E_{Z}[ E_{D|Z}((g_D(Z) -\\bar g(Z))^2+ E_{D|Z}((\\bar g(Z)- f(Z))^2) +2* E_{D|Z}(g_D(Z) -\\bar g(Z))*(\\bar g(Z)- f(Z))] \\quad\\quad(1) EZ[EDZ((gD(Z)gˉ(Z)+gˉ(Z)f(Z))2)]=EZ[EDZ((gD(Z)gˉ(Z))2+EDZ((gˉ(Z)f(Z))2)+2EDZ(gD(Z)gˉ(Z))(gˉ(Z)以上是关于现代信号处理 07 - 正则化的主要内容,如果未能解决你的问题,请参考以下文章

现代信号处理 19 -谱分析的参数化方法

现代信号处理 04 - 正交化与维纳滤波

正则化处理

正则化项L1和L2的直观理解及L1不可导处理

数据预处理中归一化(Normalization)与损失函数中正则化(Regularization)解惑

机器学习40讲-12正则化处理:收缩方法与边际化