强化学习——值函数与Bellman方程
Posted Vic时代
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习——值函数与Bellman方程相关的知识,希望对你有一定的参考价值。
在强化学习中,agent和环境之间进行一系列交互:在每个时刻 t ,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。
agent的目标是最大化累积奖励。
1 MDP
马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。
MDP是一个五元组
<S,A,P,R,γ> ,其中
- S 是一个有限状态集
- A 是一个有限动作集
- P 是一个状态转移概率矩阵, Pass′=P[St+1=s′|St=s,At=a]
- R 是一个奖励函数, Ras=E[Rt+1|St=s,At=a]
- γ 是一个折扣因子 γ∈[0,1] .策略 π 是agent的行为函数:
π(a|s)=P[At=a|St=s]
注意,策略只和状态相关,和时间无关(静态的)。
2 值函数与Bellman期望方程
2.1 值函数
值函数是对未来奖励的一个预测。
回报(return)
回报 Gt 是从时刻 t 开始的总折扣奖励:
Gt=Rt+1+γRt+2+⋯=∑k=1∞γkRt+k+1 状态值函数
vπ(s)=Eπ[Gt|St=s]
状态值函数 vπ(s) 是从状态 s 出发,按照策略π 采取行为得到的期望回报:
状态值函数可以用来评价状态的好坏。
根据定义可以得到:
vπ(s)=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γvπ(St+1)|St=s]
行为值函数
行为值函数 qπ(s,a) 是从状态 s