强化学习基本概念

Posted 2021-03-02 loubin

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习基本概念相关的知识，希望对你有一定的参考价值。

智能体（agent）

例如alpha-go中的棋盘，用于产生动作的主体就是智能体。

状态（state）

l例如当前棋盘中的局势就是状态，表示的是主体执行动作之前需要考虑的外部环境

动作（action）

例如下围棋中的落子，表示智能体在某个状态下采取的一个行为

奖励（reward）

例如当某一步有利于最后取得胜利，那么奖励记为1，否则记为-1。奖励是智能体用来决策在当前状态应该采取什么动作的参考标准。智能体的动作应该朝着未来奖励最大化方向行动。

策略（policy）

理解为目标。例如下围棋的策略就是占地面积比对方大。

他们的转换关系如下图

技术图片

以上是关于强化学习基本概念的主要内容，如果未能解决你的问题，请参考以下文章

强化学习笔记3---policy gradient基本概念

基于Pytorch的强化学习(DQN)之 Baseline 基本概念

深度强化学习

强化学习介绍和马尔可夫决策过程详细推导

强化学习介绍和马尔可夫决策过程详细推导

强化学习入门