从TRPO到PPO(理论分析与数学证明)
Posted 行者AI
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从TRPO到PPO(理论分析与数学证明)相关的知识,希望对你有一定的参考价值。
本文首发于行者AI
引言
一篇关于强化学习算法的理论推导,或许可以帮助你理解PPO算法背后的原理,从而找到改进PPO算法的灵感…
马尔可夫决策过程由 ( S , A , P , r , ρ 0 , γ ) (S, A, P, r, \\rho_0, \\gamma) (S,A,P,r,ρ0,γ)六个元素构成。其中 S S S是一个有限的状态空间集合, A A A是一个有限的动作空间集合。 P : S × A × S → R P: S \\times A \\times S \\rightarrow \\mathbbR P:S×A×S→R 表示状态转移概率函数,例如 P ( s ′ ∣ s , a ) = 0.6 P(s'|s,a)=0.6 P(s′∣s,a)=0.6表示的含义就是在状态 s s s处执行动作 a a a到达的状态为 s ′ s' s′的概率为0.6。 r : S → R r: S\\rightarrow \\mathbbR r:S→R是奖励函数, ρ 0 : S → R \\rho_0: S\\rightarrow\\mathbbR ρ0:S→R是初始状态分布概率函数, γ ∈ ( 0 , 1 ) \\gamma\\in (0,1) γ∈(0,1)是折扣因子。
让 π \\pi π表示一个随机策略函数 π : S × A → [ 0 , 1 ] \\pi: S\\times A\\rightarrow [0,1] π:S×A→[0,1],例如 π ( s , a ) = 0.5 \\pi(s,a)=0.5 π(s,a)=0.5表示在状态 s s s处选择动作 a a a的概率为0.5。令 η ( π ) \\eta(\\pi) η(π)表示基于策略 π \\pi π的长期期望折扣奖励: η ( π ) = E s 0 , a 0 , … [ ∑ t = 0 ∞ γ t r ( s t ) ] \\eta(\\pi) = \\mathbbE_s_0, a_0,\\ldots[\\sum\\limits_t=0^\\infty\\gamma^t r(s_t)] η(π)=Es0,a0,…[t=0∑∞γtr(st)], 其中 s 0 ∼ ρ 0 ( s 0 ) , a t ∼ π ( a t ∣ s t ) , s t + 1 ∼ P ( s t + 1 ∣ s t , a t ) s_0\\sim \\rho_0(s_0), a_t\\sim \\pi(a_t|s_t), s_t+1\\sim P(s_t+1|s_t,a_t) s0∼ρ0(s0),at∼π(at∣st),st+1∼P(st+1∣st,at)。
下面给出状态价值函数、状态动作价值函数、优势函数的定义:
(1)状态动作价值函数:
Q
π
(
s
t
,
a
t
)
=
E
s
t
+
1
,
a
t
+
1
,
…
[
∑
l
=
0
∞
γ
l
r
(
s
t
+
l
)
]
Q_\\pi(s_t,a_t) = \\mathbbE_s_t+1,a_t+1,\\ldots[\\sum\\limits_l=0^\\infty\\gamma^lr(s_t+l)]
Qπ(st,at)=Est+1,at+1,…[l=0∑∞γlr(st+l)]
表示的是在状态
s
t
s_t
st处执行动作
a
t
a_t
at后获得的长期期望折扣奖励。
(2)状态价值函数:
V
π
(
s
t
)
=
E
a
t
,
s
t
+
1
,
…
[
∑
l
=
0
∞
γ
l
r
(
s
t
+
l
)
]
=
E
a
t
[
Q
π
(
s
t
,
a
t
)
]
V_\\pi(s_t) = \\mathbbE_a_t, s_t+1,\\ldots[\\sum\\limits_l=0^\\infty\\gamma^lr(s_t+l)] = \\mathbbE_a_t[Q_\\pi(s_t, a_t)]
Vπ(st)=Eat,st+1,…[l=0∑∞γlr(st+l)]=Eat[Qπ(st,at)]
表示从状态
s
t
s_t
st开始获得的长期期望折扣奖励。
(3)优势函数:
A
π
(
s
,
a
)
=
Q
π
(
s
,
a
)
−
V
π
(
s
,
a
)
A_\\pi(s, a) = Q_\\pi(s,a) - V_\\pi(s,a)
Aπ(s,a)=Qπ(s,a)−Vπ(s,a)
表示的是在状态
s
s
s处,动作
a
a
a相对于平均水平的高低。
强化学习的目标就是最大化长期期望折扣奖励 以上是关于从TRPO到PPO(理论分析与数学证明)的主要内容,如果未能解决你的问题,请参考以下文章 强化学习 | 策略梯度 | Natural PG | TRPO | PPO Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO
η
(
π
)
=
E
s
0
,
a
0
,
…
[
∑
t
=
0
∞
γ
t
r
(
s
t
)
]
\\eta(\\pi) = \\mathbbE_s_0, a_0,\\ldots[\\sum\\limits_t=0^\\infty\\gamma^t r(s_t)]
η(π)=Es0,a0,…[t=0∑∞