从TRPO到PPO(理论分析与数学证明)

Posted 行者AI

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从TRPO到PPO(理论分析与数学证明)相关的知识,希望对你有一定的参考价值。

本文首发于行者AI

引言

一篇关于强化学习算法的理论推导,或许可以帮助你理解PPO算法背后的原理,从而找到改进PPO算法的灵感…

马尔可夫决策过程由 ( S , A , P , r , ρ 0 , γ ) (S, A, P, r, \\rho_0, \\gamma) (S,A,P,r,ρ0,γ)六个元素构成。其中 S S S是一个有限的状态空间集合, A A A是一个有限的动作空间集合。 P : S × A × S → R P: S \\times A \\times S \\rightarrow \\mathbbR P:S×A×SR 表示状态转移概率函数,例如 P ( s ′ ∣ s , a ) = 0.6 P(s'|s,a)=0.6 P(ss,a)=0.6表示的含义就是在状态 s s s处执行动作 a a a到达的状态为 s ′ s' s的概率为0.6。 r : S → R r: S\\rightarrow \\mathbbR r:SR是奖励函数, ρ 0 : S → R \\rho_0: S\\rightarrow\\mathbbR ρ0:SR是初始状态分布概率函数, γ ∈ ( 0 , 1 ) \\gamma\\in (0,1) γ(0,1)是折扣因子。

π \\pi π表示一个随机策略函数 π : S × A → [ 0 , 1 ] \\pi: S\\times A\\rightarrow [0,1] π:S×A[0,1],例如 π ( s , a ) = 0.5 \\pi(s,a)=0.5 π(s,a)=0.5表示在状态 s s s处选择动作 a a a的概率为0.5。令 η ( π ) \\eta(\\pi) η(π)表示基于策略 π \\pi π的长期期望折扣奖励: η ( π ) = E s 0 , a 0 , … [ ∑ t = 0 ∞ γ t r ( s t ) ] \\eta(\\pi) = \\mathbbE_s_0, a_0,\\ldots[\\sum\\limits_t=0^\\infty\\gamma^t r(s_t)] η(π)=Es0,a0,[t=0γtr(st)], 其中 s 0 ∼ ρ 0 ( s 0 ) , a t ∼ π ( a t ∣ s t ) , s t + 1 ∼ P ( s t + 1 ∣ s t , a t ) s_0\\sim \\rho_0(s_0), a_t\\sim \\pi(a_t|s_t), s_t+1\\sim P(s_t+1|s_t,a_t) s0ρ0(s0),atπ(atst),st+1P(st+1st,at)

下面给出状态价值函数、状态动作价值函数、优势函数的定义:

(1)状态动作价值函数
Q π ( s t , a t ) = E s t + 1 , a t + 1 , … [ ∑ l = 0 ∞ γ l r ( s t + l ) ] Q_\\pi(s_t,a_t) = \\mathbbE_s_t+1,a_t+1,\\ldots[\\sum\\limits_l=0^\\infty\\gamma^lr(s_t+l)] Qπ(st,at)=Est+1,at+1,[l=0γlr(st+l)]
表示的是在状态 s t s_t st处执行动作 a t a_t at后获得的长期期望折扣奖励。

(2)状态价值函数:
V π ( s t ) = E a t , s t + 1 , … [ ∑ l = 0 ∞ γ l r ( s t + l ) ] = E a t [ Q π ( s t , a t ) ] V_\\pi(s_t) = \\mathbbE_a_t, s_t+1,\\ldots[\\sum\\limits_l=0^\\infty\\gamma^lr(s_t+l)] = \\mathbbE_a_t[Q_\\pi(s_t, a_t)] Vπ(st)=Eat,st+1,[l=0γlr(st+l)]=Eat[Qπ(st,at)]
表示从状态 s t s_t st开始获得的长期期望折扣奖励。

(3)优势函数
A π ( s , a ) = Q π ( s , a ) − V π ( s , a ) A_\\pi(s, a) = Q_\\pi(s,a) - V_\\pi(s,a) Aπ(s,a)=Qπ(s,a)Vπ(s,a)
表示的是在状态 s s s处,动作 a a a相对于平均水平的高低。

强化学习的目标就是最大化长期期望折扣奖励
η ( π ) = E s 0 , a 0 , … [ ∑ t = 0 ∞ γ t r ( s t ) ] \\eta(\\pi) = \\mathbbE_s_0, a_0,\\ldots[\\sum\\limits_t=0^\\infty\\gamma^t r(s_t)] η(π)=Es0,a0,[t=0

以上是关于从TRPO到PPO(理论分析与数学证明)的主要内容,如果未能解决你的问题,请参考以下文章

从TRPO到PPO(理论分析与数学证明)

从TRPO到PPO(理论分析与数学证明)

从TRPO到PPO(理论分析与数学证明)

强化学习 | 策略梯度 | Natural PG | TRPO | PPO

强化学习---TRPO/DPPO/PPO/PPO2

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO