强化学习——值函数与Bellman方程

Posted Vic时代

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习——值函数与Bellman方程相关的知识,希望对你有一定的参考价值。

在强化学习中,agent和环境之间进行一系列交互:在每个时刻 t ,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组<S,A,P,R,γ>,其中
- S 是一个有限状态集
- A 是一个有限动作集
- P 是一个状态转移概率矩阵, Pass=P[St+1=s|St=s,At=a]
- R 是一个奖励函数, Ras=E[Rt+1|St=s,At=a]
- γ 是一个折扣因子 γ[0,1] .

策略 π 是agent的行为函数:

π(a|s)=P[At=a|St=s]

注意,策略只和状态相关,和时间无关(静态的)。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报 Gt 是从时刻 t 开始的总折扣奖励:
Gt=Rt+1+γRt+2+=k=1γkRt+k+1

状态值函数
状态值函数 vπ(s) 是从状态 s 出发,按照策略π采取行为得到的期望回报:

vπ(s)=Eπ[Gt|St=s]

状态值函数可以用来评价状态的好坏。

根据定义可以得到:

vπ(s)=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γvπ(St+1)|St=s]

行为值函数
行为值函数 qπ(s,a) 是从状态 s

(c)2006-2019 SYSTEM All Rights Reserved IT常识