动态规划与多阶段决策问题简介

Posted 古道西风瘦码

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了动态规划与多阶段决策问题简介相关的知识,希望对你有一定的参考价值。

文章目录


1.引例

1.1最短路径问题


动态规划求解从A到F的最短路径。

1.2 库存成本最低问题

某企业生产某种产品,每月月初按订货单发货,生产的产品随时入库,仓库最多能够储存产品90千件。在1至6月其生产成本和产品订单的需求数量情况如下表:

已知上一年底库存量为40千件,要求6月底库存量仍能够保持40千件。问:如何安排这6个月的生产量,使既能满足各月的定单需求,同时生产成本最低。

2、多阶段决策问题

2.1 特点

2.2 阶段和阶段变量

相互联系又有区别的子问题——阶段
描述阶段的变量——阶段变量( k k k表示)

2.3状态、状态变量、可能状态集

某特定时间与空间中位置及运动特征的量——状态
反映状态变化的量——状态变量
状态变量的取值范围或集合——可能状态集(可达状态集),可以是离散的也可以是连续的

状态变量

无后效性(马尔可夫性)——系统从某个阶段之后的发展,仅与当前状态及之后的决策决定,与之前的状态和经历无关——(强化学习应用)

状态

阶段 k k k的初始状态 s k s_k sk,终止状态 s k + 1 s_k+1 sk+1,可能状态集 S k S_k Sk,即 s k ∈ S k s_k \\in S_k skSk

2.4决策、决策变量和允许变量集合

从给定阶段的状态出发到下一个阶段状态的选择(行动 a c t i o n action action)——决策
描述决策变化的量——决策变量,可以是数、向量、其他量、也可是状态变量的函数
决策变量的取值范围——允许决策集合

决策变量和允许决策集合

u k = u k ( s k ) u_k=u_k(s_k) uk=uk(sk)表示阶段 k k k状态为 s k s_k sk时的决策变量,允许决策集 U k ( s k ) U_k(s_k) Uk(sk)表示,允许决策集合实际是决策的约束条件

2.5策略和允许策略集合

决策序列——策略(全过程策略、 k k k部字策略)
依次进行的 n n n个决策构成的决策序列——全过程策略(简称策略),表示为
p 1 , n u 1 u 2 , ⋯   , u n p_1,n\\left\\u_1u_2,\\cdots,u_n\\right\\ p1,nu1u2,,un
  从 k k k阶段到第 n n n阶段,依次进行的阶段决策构成的决策序列称为 k k k部子策略,表示为 p k , n u k , u k + 1 , ⋯   , u n p_k,n\\left\\u_k,u_k+1,\\cdots,u_n\\right\\ pk,nuk,uk+1,,un,显然,当 k = 1 k=1 k=1时的 k k k部子策略就是全过程策略
  不同策略的集合即允许策略集合,记作 P 1 , n P_1,n P1,n。最有效果的策略称为最优策略

2.6状态转移方程

s k + u k ( s k ) ⇒ s k + 1 s_k+u_k(s_k) \\Rightarrow s_k+1 sk+uk(sk)sk+1
  无后效性的转移过程: s k + 1 s_k+1 sk+1只和 s k s_k sk u k ( s k ) u_k(s_k) uk(sk)有关,与之前的 s 1 , s 2 , ⋯   , s k − 1 s_1,s_2,\\cdots,s_k-1 s1,s2,,sk1及其决策 u 1 ( s 1 ) , u 2 ( s 2 ) , ⋯   , u k − 1 ( s k − 1 ) u_1(s_1),u_2(s_2),\\cdots,u_k-1(s_k-1) u1(s1),u2(s2),,uk1(sk1)无关。表示为:
s k + 1 = T k ( s k , u k ( s k ) ) s_k+1=T_k(s_k,u_k(s_k)) sk+1=Tk(sk,uk(sk))
  多阶段决策过程的状态转移方程

2.7指标函数

衡量策略或子策略或决策效果的某种数量指标——指标函数。如奖励函数。

阶段指标函数

g k ( s k , u k ) g_k(s_k,u_k) gk(sk,uk)表示 k k k阶段处于 s k s_k sk状态下执行 u k ( s k ) u_k(s_k) uk(sk)决策的指标。强化学习中的即时奖励 r r r
R k ( s k , u k ) R_k(s_k,u_k) Rk(sk,uk)表示 k k k子过程的指标函数。与 s k s_k sk p k ( s k ) p_k(s_k) pk(sk)有关,严格可表示为 R k ( s k , p k ( s k ) ) R_k(s_k,p_k(s_k)) Rk(sk,pk(s以上是关于动态规划与多阶段决策问题简介的主要内容,如果未能解决你的问题,请参考以下文章

动态规划 算法(DP)

2023-05-02 动态规划简介

11算法策略之动态规划

动态规划算法

《数据结构与算法之美》28——动态规划理论

002-动态规划