最优化建模算法理论之Wolfe准则（数学原理及MATLAB实现）

Posted 2022-02-21 Z.Q.Feng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了最优化建模算法理论之Wolfe准则（数学原理及MATLAB实现）相关的知识，希望对你有一定的参考价值。

文章目录

一、前言
二、Wolfe准则
- 1. 定义
- 2. 几何含义
三、代码实现
四、与Armjio准则的对比
五、总结

一、前言

Goldstein 准则能够使得函数值充分下降，但是它可能避开了最优的函数值，如下图所示：

一维函数 $\\phi(\\alpha)$ 的最小值点并不在满足 Goldstein 准则的区间 $[\\alpha_1, \\alpha_2]$ 中．为此我们引入 Armijo-Wolfe 准则，简称 Wolfe 准则。

二、Wolfe准则

1. 定义

设 $d^k$ 是点 $x^k$ 处的下降方向，若

$\\beginaligned &f(x^k + \\alpha d^k) \\le f(x^k) + c_1 \\alpha \\nabla f(x^k)^Td^k,\\\\ &\\nabla f(x^k + \\alpha d^k)^Td^k \\ge c_2 \\nabla f(x^k)^Td^k \\endaligned$

则称步长 $\\alpha$ 满足 Wolfe 准则，其中 $c_1, c_2 \\in (0, 1)$ 且 $c_1 \\lt c_2$ 。

2. 几何含义

在准则中，第一个不等式即是 Armijo 准则，而第二个不等式则是 Wolfe 准则的本质要求。注意到 $\\nabla f(x^k + \\alpha d^k)^Td^k$ 恰好就是 $\\phi(\\alpha)$ 的导数，Wolfe 准则实际要求 $\\phi(\\alpha)$ 在点 $\\alpha$ 处切线的斜率不能小于 $\\phi^'(0)$ 的 $c_2$ 倍。

$\\beginaligned &l_1(\\alpha) = \\phi(0) + c\\alpha \\nabla f(x^k)^Td^k,\\\\ &l_2(\\alpha) = \\phi(0) + (1 - c)\\alpha \\nabla f(x^k)^Td^k \\endaligned$

如下图所示：

区间 $[\\alpha_1, \\alpha_2]$ 中的点均满足 Wolfe 准则。

三、代码实现

MATLAB 代码如下：

function [alpha, xk, f, k] = Wolfe(fun, grid, x0, dk)
	%
	% Function [alpha, xk, fx, k] = Wolfe(fun, grid, x0, dk)
	% 求出函数fun在x0处以dk为下降方向时的步长alpha，同时返回相对应的下
	% 一个下降点xk以及xk处的函数值fx，k为迭代次数
	% -----------------------------------------------------------
	% 输入: 
	% 	fun 	函数名称(字符变量）
	%	grid 	梯度函数名称(字符变量)
	%	x0		迭代点(列向量)
	%	dk		函数在迭代点处的下降方向(列向量)
	%
	% 输出:
	%	alpha	函数在x0处以dk为下降方向时的下降步长
	%	xk		函数在x0处以dk为下降方向，以alpha为步长
	%			求得的下降点
	%	f	    函数在下降点xk处的函数值
	%	k		求步长算法迭代次数
	% -----------------------------------------------------------
	% by Zhi Qiangfeng 
	%
	c1 = 1e-3; c2 = 0.9; % 0 < c1 < c2 < 1
	alpha = 1; 	% 初始步长为 1
	k = 0; 		% 统计迭代次数
    a = 0; b = inf; % 自定义一个二次插值函数
	g0 = feval(grid, x0);	% x0处的梯度值
	fk = feval(fun, x0 + alpha * dk); 	% 函数在下一个迭代点处的目标函数值
    gk = feval(grid, x0 + alpha * dk);  % 函数在下一个迭代点处的梯度值
	l = feval(fun, x0) + c1 * alpha * g0' * dk; 	% Armjio准则
	while true
	    if fk > l
            k = k + 1;
            b = alpha;
            alpha = (a + b) / 2;
            fk = feval(fun, x0 + alpha * dk);
            l = feval(fun, x0) + c1 * alpha * g0' * dk;
            gk = feval(grid, x0 + alpha * dk);
            continue;
        end
        if gk' * dk < c2 * g0' * dk % Wolfe准则
            k = k + 1;
            a = alpha;
            alpha = min([2 * alpha, (a + b) / 2]);
            fk = feval(fun, x0 + alpha * dk);
            l = feval(fun, x0) + c1 * alpha * g0' * dk;
            gk = feval(grid, x0 + alpha * dk);
            continue;
        end
        break;
	end
	xk = x0 + alpha * dk;	% 下降点
	f = feval(fun, xk);	    % 下降点处函数值
end

四、与Armjio准则的对比

以求解 Rosenbrock 函数为例，这是优化领域中一个著名的检验函数，函数表达式如下：

$\\beginaligned &f(x) = 100(x_2 - x_1^2)^2 + (1 - x_1)^2,\\\\ &g(x) = \\left[\\beginaligned-400x_1x_2 + 400x_1^3 + 2x_1 - 2;\\\\200x_2 - 200x_1^2\\endaligned\\right] \\endaligned$