有限马尔可夫决策过程

Posted 郁郁园中柳

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有限马尔可夫决策过程相关的知识,希望对你有一定的参考价值。

在有限马尔可夫过程中,状态、行动、奖励都是有限数值。在这种情况下,下一次的状态和奖励只依赖于上一时刻的状态和行动。
与随机过程中的马尔可夫过程类似,不同点在于马尔可夫过程只看重状态之间的转移,主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中,增加了动作(也就是状态有限时,在原来的状态转移图上,不同动作可能会导致同样的状态转移情况)。

方法关键贝尔曼方程
贝尔曼方程描述的是状态的值之间的关系(主要通过这一状态的预期回报与下一状态的预期回报之间的关系来体现)

  1. 要确定这一状态的预期回报,需要知道下一状态的预期回报加上这一次的回报即可。这样就构造了递推关系。
  2. 这一状态与下一状态转变的关键在于选择的动作,选择什么动作是由策略决定的。所以对动作进行全概率求和公式(概率就是策略);需要注意到相同动作可能会出现不同状态,即使转换到同一状态也有可能出现不同的reward,所以需要对状态和reward同时进行求和才算完善。
  3. 在写贝尔曼方程之前需要知道什么?
    • 状态有哪些
    • 每个状态下可选的动作有哪些?(依状态之间能选的动作是否相同而定)
    • 在每个状态下选择动作的策略是什么?
    • 给定动作后,新状态和reward的遍历及概率

最优策略共享一个最优状态值函数、一个最优行动值函数
最优状态值函数

最优行动值函数

常用例子:
回收机器人(状态:电量高低;动作:等待、充电、找垃圾;动作状态的转移关系:什么动作导致什么状态 得到什么奖励的转移关系)
Gridworld(跳方格 动作:上下左右,方格位置的转移关系,奖励设置)

注意:贝尔曼方程的书写以及示意图的理解

以上是关于有限马尔可夫决策过程的主要内容,如果未能解决你的问题,请参考以下文章

强化学习笔记-03有限马尔可夫决策过程MDP

马尔可夫决策过程MDP

什么是马尔可夫决策过程

什么是马尔可夫决策过程

强化学习马尔可夫决策过程(MDP)基本原理

David Silver强化学习Lecture2:马尔可夫决策过程