动态规划与多阶段决策问题简介
Posted 古道西风瘦码
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了动态规划与多阶段决策问题简介相关的知识,希望对你有一定的参考价值。
文章目录
1.引例
1.1最短路径问题
动态规划求解从A到F的最短路径。
1.2 库存成本最低问题
某企业生产某种产品,每月月初按订货单发货,生产的产品随时入库,仓库最多能够储存产品90千件。在1至6月其生产成本和产品订单的需求数量情况如下表:
已知上一年底库存量为40千件,要求6月底库存量仍能够保持40千件。问:如何安排这6个月的生产量,使既能满足各月的定单需求,同时生产成本最低。
2、多阶段决策问题
2.1 特点
2.2 阶段和阶段变量
相互联系又有区别的子问题——阶段
描述阶段的变量——阶段变量(
k
k
k表示)
2.3状态、状态变量、可能状态集
某特定时间与空间中位置及运动特征的量——状态
反映状态变化的量——状态变量
状态变量的取值范围或集合——可能状态集(可达状态集),可以是离散的也可以是连续的
状态变量
无后效性(马尔可夫性)——系统从某个阶段之后的发展,仅与当前状态及之后的决策决定,与之前的状态和经历无关——(强化学习应用)
状态
阶段 k k k的初始状态 s k s_k sk,终止状态 s k + 1 s_k+1 sk+1,可能状态集 S k S_k Sk,即 s k ∈ S k s_k \\in S_k sk∈Sk。
2.4决策、决策变量和允许变量集合
从给定阶段的状态出发到下一个阶段状态的选择(行动
a
c
t
i
o
n
action
action)——决策
描述决策变化的量——决策变量,可以是数、向量、其他量、也可是状态变量的函数
决策变量的取值范围——允许决策集合
决策变量和允许决策集合
记 u k = u k ( s k ) u_k=u_k(s_k) uk=uk(sk)表示阶段 k k k状态为 s k s_k sk时的决策变量,允许决策集 U k ( s k ) U_k(s_k) Uk(sk)表示,允许决策集合实际是决策的约束条件
2.5策略和允许策略集合
决策序列——策略(全过程策略、
k
k
k部字策略)
依次进行的
n
n
n个决策构成的决策序列——全过程策略(简称策略),表示为
p
1
,
n
u
1
u
2
,
⋯
,
u
n
p_1,n\\left\\u_1u_2,\\cdots,u_n\\right\\
p1,nu1u2,⋯,un
从
k
k
k阶段到第
n
n
n阶段,依次进行的阶段决策构成的决策序列称为
k
k
k部子策略,表示为
p
k
,
n
u
k
,
u
k
+
1
,
⋯
,
u
n
p_k,n\\left\\u_k,u_k+1,\\cdots,u_n\\right\\
pk,nuk,uk+1,⋯,un,显然,当
k
=
1
k=1
k=1时的
k
k
k部子策略就是全过程策略。
不同策略的集合即允许策略集合,记作
P
1
,
n
P_1,n
P1,n。最有效果的策略称为最优策略
2.6状态转移方程
s
k
+
u
k
(
s
k
)
⇒
s
k
+
1
s_k+u_k(s_k) \\Rightarrow s_k+1
sk+uk(sk)⇒sk+1
无后效性的转移过程:
s
k
+
1
s_k+1
sk+1只和
s
k
s_k
sk和
u
k
(
s
k
)
u_k(s_k)
uk(sk)有关,与之前的
s
1
,
s
2
,
⋯
,
s
k
−
1
s_1,s_2,\\cdots,s_k-1
s1,s2,⋯,sk−1及其决策
u
1
(
s
1
)
,
u
2
(
s
2
)
,
⋯
,
u
k
−
1
(
s
k
−
1
)
u_1(s_1),u_2(s_2),\\cdots,u_k-1(s_k-1)
u1(s1),u2(s2),⋯,uk−1(sk−1)无关。表示为:
s
k
+
1
=
T
k
(
s
k
,
u
k
(
s
k
)
)
s_k+1=T_k(s_k,u_k(s_k))
sk+1=Tk(sk,uk(sk))
多阶段决策过程的状态转移方程。
2.7指标函数
衡量策略或子策略或决策效果的某种数量指标——指标函数。如奖励函数。
阶段指标函数
g
k
(
s
k
,
u
k
)
g_k(s_k,u_k)
gk(sk,uk)表示
k
k
k阶段处于
s
k
s_k
sk状态下执行
u
k
(
s
k
)
u_k(s_k)
uk(sk)决策的指标。强化学习中的即时奖励
r
r
r。
R
k
(
s
k
,
u
k
)
R_k(s_k,u_k)
Rk(sk,uk)表示
k
k
k子过程的指标函数。与
s
k
s_k
sk和
p
k
(
s
k
)
p_k(s_k)
pk(sk)有关,严格可表示为
R
k
(
s
k
,
p
k
(
s
k
)
)
R_k(s_k,p_k(s_k))
Rk(sk,pk(s以上是关于动态规划与多阶段决策问题简介的主要内容,如果未能解决你的问题,请参考以下文章