强化学习基本概念
Posted loubin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习基本概念相关的知识,希望对你有一定的参考价值。
智能体(agent)
例如alpha-go中的棋盘,用于产生动作的主体就是智能体。
状态(state)
l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境
动作(action)
例如下围棋中的落子,表示智能体在某个状态下采取的一个行为
奖励(reward)
例如当某一步有利于最后取得胜利,那么奖励记为1,否则记为-1。奖励是智能体用来决策在当前状态应该采取什么动作的参考标准。智能体的动作应该朝着未来奖励最大化方向行动。
策略(policy)
理解为目标。例如下围棋的策略就是占地面积比对方大。
他们的转换关系如下图
以上是关于强化学习基本概念的主要内容,如果未能解决你的问题,请参考以下文章