强化学习——值函数与Bellman方程

Posted 2022-12-06 Vic时代

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习——值函数与Bellman方程相关的知识，希望对你有一定的参考价值。

在强化学习中，agent和环境之间进行一系列交互：在每个时刻 $t$ ，根据环境的状态和奖励，agent采取某一行为；这个行为会作用到环境中，环境改变状态并对agent进行奖励。

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组 $<\\cal S, \\cal A, \\cal P, \\cal R, \\gamma>$ ，其中
- $\\cal S$ 是一个有限状态集
- $\\cal A$ 是一个有限动作集
- $\\cal P$ 是一个状态转移概率矩阵， $\\cal P_ss\'^a = \\mathbb P[S_t+1=s\' | S_t = s, A_t = a]$
- $\\cal R$ 是一个奖励函数， $\\cal R_s^a = \\mathbb E[R_t+1 | S_t = s, A_t = a]$
- $\\gamma$ 是一个折扣因子 $\\gamma\\in [0, 1]$ .

策略 $\\pi$ 是agent的行为函数:

$\\pi(a|s) = \\mathbb P[A_t = a | S_t = s]$

注意，策略只和状态相关，和时间无关（静态的）。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报 $G_t$ 是从时刻 $t$ 开始的总折扣奖励：
$G_t = R_t+1 + \\gamma R_t+2 + \\cdots = \\sum_k=1^\\infty \\gamma^k R_t+k+1$

状态值函数
状态值函数 $v_\\pi(s)$ 是从状态 $s$ 出发，按照策略 $\\pi$ 采取行为得到的期望回报：

$v_\\pi(s) = \\mathbb E_\\pi[G_t | S_t = s]$

状态值函数可以用来评价状态的好坏。

根据定义可以得到：

$\\beginalign v_\\pi(s) &= \\mathbb E_\\pi[R_t+1+\\gamma G_t+1 |S_t = s] \\nonumber \\\\\\\\ & = \\mathbb E_\\pi[R_t+1+\\gamma v_\\pi(S_t+1) | S_t = s] \\nonumber \\\\\\\\ \\endalign$

行为值函数
行为值函数 $q_\\pi(s, a)$ 是从状态 $以上是关于强化学习——值函数与Bellman方程的主要内容，如果未能解决你的问题，请参考以下文章</p> </article> </div> </div> </div> </section> </div> </div> <script type="text/javascript" src="https://it.cha138.com/skin/m03sred/style/js/fixit.js">$

(c)2006-2024 SYSTEM All Rights Reserved IT常识