强化学习 马尔科夫决策过程(价值迭代策略迭代雅克比迭代)
Posted 好奇小圈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习 马尔科夫决策过程(价值迭代策略迭代雅克比迭代)相关的知识,希望对你有一定的参考价值。
文章目录
一、马尔科夫过程Markov Decision Process(MDP)
1.简介
定义:无记忆的随机过程。
2、Markov 特性
1.历史状态ht=s1,s2,s3,……,st
2.状态st有且仅有:
p ( st+1 | st )=p ( st+1 | ht )
p ( st+1 | st , at )=p ( st+1 | ht , at )
3.“考虑到现在,未来是独立于过去的”
3、Markov 奖励过程
符号表示
有四个符号
<
S
,
P
,
R
,
γ
>
<S,P,R,γ>
<S,P,R,γ>
S
S
S:有限状态集合;
P
P
P:状态转移概率矩阵
P
s
s
′
=
p
(
s
t
+
1
=
s
′
∣
s
t
=
s
)
P_ss'=p ( s_t+1 = s' | s_t = s )
Pss′=p(st+1=s′∣st=s);表现为,既当前状态为
s
t
=
s
s_t=s
st=s时,下一个状态变为
s
t
+
1
=
s
′
s_t+1= s'
st+1=s′的概率。
R
R
R:奖励函数
R
S
=
E
[
R
t
+
1
∣
S
t
=
s
]
R_S=E[R_t+1|S_t=s]
RS=E[Rt+1∣St=s] ,既状态单次转换取得的收益;如下图所示
γ
γ
γ:折扣因子/衰减系数
γ
∈
[
0
,
1
]
γ∈[0,1]
γ∈[0,1]。
回报:
G
t
G_t
Gt是从时间
t
t
t开始的总折扣奖励,如下式
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
.
.
.
=
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
G_t=R_t+1+γR_t+2+γ^2R_t+3+...=\\sum_k=0^\\inftyγ^kR_t+k+1
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1
值函数:
V
(
s
)
V(s)
V(s)表示一个状态
s
s
s的长期价值
V
(
s
)
=
E
[
G
t
∣
S
t
=
s
]
V(s)=E[G_t|S_t=s]
V(s)=E[Gt∣St=s],如下图所示
MRPs的贝尔曼方程
已知,
G
t
=
R
t
+
1
+
γ
G
(
S
t
+
1
)
G_t=R_t+1+γG(S_t+1)
Gt=Rt+1+γG(St+1)
可得,
V
(
s
)
=
E
[
R
t
+
1
+
γ
G
(
S
t
+
1
)
∣
S
t
=
s
]
V(s)=E[R_t+1+γG(S_t+1)|S_t=s]
V(s)=E[Rt+1+γG(St+1)∣St=s]
已知,
R
S
=
E
[
R
t
+
1
∣
S
t
=
S
]
P
s
s
′
=
P
[
S
t
+
1
=
s
′
∣
S
t
=
s
]
R_S=E[R_t+1|S_t=S] \\\\ P_ss'=P[S_t+1=s'|S_t=s]
RS=E[Rt+1∣St=S]Pss′=P[St+1=s′∣St=s]
可得,
V
(
s
)
=
R
S
+
γ
∑
s
′
∈
S
P
s
s
′
V
(
s
′
)
V(s)=R_S+γ\\sum_s'∈SP_ss'V(s')
V(s)=RS+γs′∈S∑Pss′V(s′)
矩阵形式如下,
V
=
R
+
γ
P
V
(
1
−
γ
P
)
V
=
R
V
=
(
1
−
γ
P
)
−
1
R
V=R+γPV\\\\ (1-γP)V=R\\\\ V=(1-γP)^-1R
V=R+γPV(1−γP)V=RV=(1−γP)−1R
常用求解方法有动态规划、蒙特卡洛评估、时序差分学习等。
4、Markov决策过程
符号表示
有五个符号
<
S
,
A
,
P
,
R
,
γ
>
<S,A,P,R,γ>
<S,A,P,R,γ> 以上是关于强化学习 马尔科夫决策过程(价值迭代策略迭代雅克比迭代)的主要内容,如果未能解决你的问题,请参考以下文章
S
S
S:有限状态集合;
A
A
A:有限动作集合;
P
P
P:状态转移概率矩阵
P
s
s
′
a
=
p
(
s
t
+
1
=
s
′
∣
s
t
=
s
,
A
t
=
a
)
P_ss'^a=p (s_t+1 = s' | s_t = s,A_t=a)
<