强化学习(David Silver)1：简介

Posted 2020-10-11 _1024

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习(David Silver)1：简介相关的知识，希望对你有一定的参考价值。

1、书

《An introduction to Reforcement Learning》Sutton and Barto, 1998，400页

《Algorithms for Reforcement Learning》Szepesvari，2010，偏数学，不到100页

2、强化学习的特点

不存在监督者，有奖励信号；

反馈是延迟的，不是每步都有奖励；

时序很重要（数据不是独立同分布的）

动作决定接下来的环境

3、强化学习的例子

飞机、游戏、股市、发电厂控制、人形机器人行走

4、强化学习基于奖励假设

强化学习的目标是最大化期望累积收益

5、代理和环境

代理：执行动作，接受观察，接收奖励

环境：接收动作，释放观察，释放奖励

6、历史和状态

未来将要发生什么依赖于历史

状态决定未来会发生什么

状态是历史信息的函数

历史内容太多，不易记录，状态可以看做历史信息的简化

6.1、状态环境

环境状态是环境的私有表达；代理接收到观察和奖励，但是往往并不知道环境的状态；即使环境状态可见，往往也包含不相关信息

ps：环境状态在算法中不可用

6.2、动作状态

历史信息的函数；强化学习真正使用到的状态

6.3、信息状态（马尔科夫态）

当前状态仅与上一个状态有关；与其它历史状态无关

6.4、完全观察环境

假设观察=动作状态=信息状态，此时强化学习是一个MDP

6.5、部分观察环境

代理不能直接观察到环境；这是一个POMDP（partially observable MDP）

7、代理的构成

7.1、策略

如何执行东西，是状态到动作的映射，可以是确定性策略，也可以是非确定性策略

7.2、值函数

值定义：对未来奖励的预测

值函数：对状态和/或动作的评估；

类型：状态值函数；动作值函数；无论哪一种形式，都是基于某种策略来说的

用途：动作/状态选择；通过对动作/状态估值，进行策略选择

7.3、模型

模型：预测环境接下来会做什么

类型：转移模型（代理在某个状态下，执行某个动作后，转移向另一个状态的概率）

奖励模型（代理在某个状态下执行某个动作后，环境给予的奖励）

7.4、代理的分类

ValueBased：无策略；有值函数

PolicyBased：有策略；无值函数

ActorCritic：有策略；有值函数

ModelFree：没有model

以上是关于强化学习(David Silver)1：简介的主要内容，如果未能解决你的问题，请参考以下文章