梯度寻优

Posted q735613050

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了梯度寻优相关的知识,希望对你有一定的参考价值。

无论做任何事情,人们总是希望以最小的代价获取最大的利益,力求最好!为此,人们发明各式各样的数学工具:导数、积分等。现代优化理论大都来源于处理多元问题时导致的复杂性,它有三个重要的基础:

  • 矩阵理论:矩阵是描述多元问题的最基本的工具,为多元问题分析和求解提供了基本的数据结构。
  • 数值分析:导数和微分为多元问题分析和求解提供了基本的数学方法。
  • 计算机:为多元问题分析和求解提供了基本的实践工具。

由此,一个最优化问题需要我们同时具备三种基本的能力:数学建模、公式推导、算法设计

最优化的数学描述

[ egin{aligned} &min_{xin ?^n} && f(x) && ( ext{等价于 } max_{xin ?^n} -f(x))&operatorname{s.t.} && egin{cases} h_i(x) = 0g_j(x) leq 0 end{cases} end{aligned} ]

  • (x) 被称为决策变量或问题的解
  • (operatorname{s.t.}) 为英文 subject to 的缩写,表示受制于
  • (f(x)) 称为目标函数或代价函数 (Cost Function)
  • (h(x)) 为等式约束,(g(x)) 为不等式约束

除此之外,最优化问题中的无约束问题可以描述为
[ underset{x}{arg max}, f(x), (? underset{x}{arg max}, -f(x)) ]

其中 (argmax) 符号是指求解当函数 (f(x)) 达到最大值 (或最小值) 时 (x) 的取值。

根据目标函数与约束函数的不同形式,可以把最优化问题分为不同的类型:

  • (f(x)), (h(x)), (g(x)) 均为线性函数,就称为线性规划;
  • 若任意其中一个是非线性函数,则就称为非线性规划;
  • 若目标函数为二次函数 (如二次型),约束全为线性函数,就称为二次规划;
  • 若目标函数为向量函数,则称为多目标规划;
  • 其他。

凸集与分离定理

  • (A) 是线性空间 (X) 的一个子集,(x,y in X),联结 (x,y) 两点的线段是集合

[ [x,y] = {λx + (1-λ)y: 0 ≤ λ leq 1 }. ]

  • 若 $? x,y in A, [x,y] ? A $, 则称 (A)(X) 中的凸集, 而 (x_1,cdots, x_n)凸组合, 是集合

[{x=displaystylesum_{k=1}^n λ_kx_k: λ_k geq 0, sum_{k=1}^n λ_k = 1 }]

  • (α in I, A_{α}) 是包含 (A) 的凸集, 集 (A)凸包

[{operatorname{co}(A)} = igcap_{α in I} A_{α}]

  • (A)定义为

[ A^{circ} = {x: ? y in X, ? δ= δ(y)>0, ,operatorname{s.t.}, |t| > δ, x+ty in A } ]

(A) 是凸集, 且 (A^{circ} eq ?,) 则称 (A)凸体. 在赋范线性空间 ((X, ||cdot ||)) 中, 凸体 (A) 可定义为
(? x,y in A, x eq y, ||x|| = ||y||,)(||x+y|| < ||x|| + ||y||.)

凸集的几何意义

(x,y in S(0, r)( ext{球面})(||x||=||y||=r),) 则联结 (x,y) 线段的中点 ((x+y)/2 in B(0,r))(球体). 即若 (x,y) 在同一球面上, 则线段 ([x,y]) 的中点就位于该球体的内部.

超平面

(X) 为实数域 (?) 上的线性空间, (f)(X) 上的实值泛函, 则
[ L_f (α) = {xin X: f(x) = α, α in ? } ]
称为 (X) 中的超平面.





以上是关于梯度寻优的主要内容,如果未能解决你的问题,请参考以下文章

梯度寻优与logistic算法

无约束梯度算法

梯度下降法是啥?

梯度是啥?

pytorch中反向传播,梯度保留,梯度分离,梯度清零,梯度累加等相关问题解析

梯度下降 随机梯度下降 批量梯度下降