最优化所需基础知识-第八节:次梯度

Posted 我擦我擦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最优化所需基础知识-第八节:次梯度相关的知识,希望对你有一定的参考价值。

文章目录

一:次梯度的定义

次梯度定义:设 f f f为适当凸函数 x x x为定义域 d o m f dom f domf中的一点,若向量 g ∈ R n g\\in R^n gRn,满足

f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f f(y)\\geq f(x)+g^T(y-x),\\quad \\forall y\\in domf f(y)f(x)+gT(yx),ydomf

则称 g g g为函数 f f f在点 x x x的一个次梯度。进一步地,称集合

∂ f ( x ) = g ∣ g ∈ R n , f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f \\partial f(x)=\\g|g\\in R^n,f(y)\\geq f(x)+g^T(y-x),\\quad \\forall y\\in domf\\ f(x)=ggRn,f(y)f(x)+gT(yx),ydomf

f f f在点 x x x处的次微分

如下图

  • g 1 g_1 g1是点 x 1 x_1 x1处的次梯度
  • g 2 g_2 g2 g 3 g_3 g3是点 x 2 x_2 x2的次梯度

实际上,次梯度实际上借鉴了凸函数判定定理的一阶条件。所以定义次梯度的初衷之一也是希望它具有类似于梯度的一些性质

  • 一阶条件:对于定义在凸集上的可微函数 f f f f f f为凸函数当前仅当 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) ∀ x , y ∈ d o m f f(y)\\geq f(x)+\\nabla f(x)^T(y-x) \\quad \\forall x,y\\in domf f(y)f(x)+f(x)T(yx)x,ydomf

另外,从次梯度的定义可直接推出,若 g g g f ( x ) f(x) f(x) x 0 x_0 x0处的次梯度,则函数

l ( x ) = f ( x 0 ) + g T ( x − x 0 ) l(x)=f(x_0)+g^T(x-x_0) l(x)=f(x0)+gT(xx0)

为凸函数 f ( x ) f(x) f(x)的一个全局下界。此外,次梯度 g g g可以诱导出上方图 e p i f epif epif在点 ( x , f ( x ) ) (x, f(x)) (x,f(x))处的一个支撑超平面

  • 容易验证,对 e p i f epi f epif中的任意点 ( y , t ) (y, t) (y,t),有:

二:次梯度存在性

次梯度存在性:设 f f f为凸函数, d o m f dom f domf为其定义域。如果 x ∈ i n t d o m f x\\in int domf xintdomf,则 ∂ f ( x ) \\partial f(x) f(x)是非空的。其中 i n t d o m f int domf intdomf的含义时集合 d o m f dom f domf的所有内点

证明:考虑 f ( x ) f(x) f(x)的上方图 e p i f epi f epif,由于 ( x , f ( x ) ) (x, f(x)) (x,f(x)) e p i f epi f epif边界上的点,且 e p i f epi f epif为凸集,根据支撑超平面定理,存在 a ∈ R n , b ∈ R a\\in R^n,b\\in R aRn,bR使得

也即

a T ( y − x ) ≤ b ( f ( x ) − t ) a^T(y-x)\\leq b(f(x)-t) aT(yx)b(f(x)t)

t → ∞ t\\rightarrow \\infty t,可知上式成立的必要条件 b ≤ 0 b\\leq0 b0,同时由于 x x x是内点,因此当取 y = x + ξ a ∈ d o m f y=x+\\xi a\\in dom f y=x+ξadomf, ξ > 0 \\xi>0 ξ>0时, b = 0 b=0 b=0不能使得上式成立。于是令 g = − a b g=-\\fracab g=ba,则对任意 y ∈ d o m f y\\in domf ydomf,有

g T ( y − x ) = a T ( y − x ) − b ≤ − ( f ( x ) − f ( y ) ) g^T(y-x)=\\fraca^T(y-x)-b\\leq-(f(x)-f(y)) gT(yx)=baT(yx)(f(x)f(y))

f ( y ) ≥ f ( x ) + g T ( y − x ) f(y)\\geq f(x)+g^T(y-x) f(y)f(x)+gT(yx)

这说明 g g g f f f在点 x x x处的次梯度

例子

f ( x ) = m a x f 1 ( x ) , f 2 ( x ) f(x)=max\\f_1(x), f_2(x)\\ f(x传输层-第八节1:TCP连接管理理论部分(三次握手与四次挥手)

传输层-第八节1:TCP连接管理理论部分(三次握手与四次挥手)

第八节 JS运动基础

萌新向Python数据分析及数据挖掘 第一章 Python基础 第八节 函数

Java基础第八节(循环结构的使用)

Java基础第八节(循环结构的使用)