强化学习笔记2:序列决策(Sequential Decision Making)过程
Posted 刘文巾
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习笔记2:序列决策(Sequential Decision Making)过程相关的知识,希望对你有一定的参考价值。
1 Agent and Environment
强化学习研究的问题是 agent 跟环境交互,上图左边画的是一个 agent,agent 一直在跟环境进行交互。
这个 agent 把它输出的动作给环境,环境取得这个动作过后,会进行到下一步,然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。
通过这样的交互过程会产生很多观测,agent 的目的是从这些观测之中学到能极大化奖励的策略。
2 Reward
奖励是由环境给的一个标量反馈信号(scalar feedback signal),这个信号显示了 agent 在某一步采取了某个策略的表现如何。
强化学习的目的就是为了最大化 agent 可以获得的奖励,agent 在这个环境里面存在的目的就是为了极大化它的期望的累积奖励(expected cumulative reward)。
3 Sequential Decision Making
在一个强化学习环境里面,agent 的目的就是选取一系列的动作来极大化它的奖励,所以这些采取的动作必须有长期的影响。
但在这个过程里面,它的奖励其实是被延迟了,就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。
这里一个示意图就是我们玩这个 Atari 的 Pong 游戏,你可能只有到最后游戏结束过后,才知道这个球到底有没有击打过去。中间你采取的 up 或 down 行为,并不会直接产生奖励。
强化学习里面一个重要的课题就是近期奖励和远期奖励的一个权衡(trade-off)。怎么让 agent 取得更多的长期奖励是强化学习的问题。
在跟环境的交互过程中,agent 会获得很多观测。在每一个观测会采取一个动作,它也会得到一个奖励。所以历史是观测(observation)、行为(action)、奖励(reward)的序列:
Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,所以你可以把整个游戏的状态看成关于这个历史的函数:
3.1 状态和观测的区别
状态(state)
s 是对世界的完整描述,不会隐藏世界的信息。
观测(observation)
o是对状态的部分描述,可能会遗漏一些信息。
3.1.1完全可观测
3.1.2 部分可观测
但是有一种情况是 agent 得到的观测并不能包含环境运作的所有状态,因为在这个强化学习的设定里面,环境environment的状态才是真正的所有状态。
- 比如 agent 在玩这个 black jack 这个游戏,它能看到的其实是牌面上的牌。
- 或者在玩雅达利游戏的时候,观测到的只是当前电视上面这一帧的信息,你并没有得到游戏内部里面所有的运作状态。
也就是说此时 agent 只能看到部分的观测,我们就称这个环境是部分可观测的(partially observed)
。在这种情况下面,强化学习通常被建模成一个 POMDP 的问题。
3.1.3 部分可观测马尔科夫问题
部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)
是一个马尔可夫决策过程的泛化。
POMDP 依然具有马尔可夫性质,但是假设智能体无法感知环境的状态 s,只能知道部分观测值 。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。
4 决策空间
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(action space)
。
像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces)
,在这个动作空间里,agent 的动作数量是有限的。
在其他环境,比如在物理世界中控制一个 agent,在这个环境中就有连续动作空间(continuous action spaces)
。在连续空间中,动作是实值的向量。
例如:
- 走迷宫机器人如果只有东南西北这 4 种移动方式,则其为离散动作空间;
- 如果机器人向 中的任意角度都可以移动,则为连续动作空间。
以上是关于强化学习笔记2:序列决策(Sequential Decision Making)过程的主要内容,如果未能解决你的问题,请参考以下文章