增强学习的基本概念
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了增强学习的基本概念相关的知识,希望对你有一定的参考价值。
对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning
(1) Sarsa 算法流程:
对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0
迭代每一训练集episode:
初始化状态 S
根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法)
迭代训练集的每一步:
采取动作A, 观察奖励值 R 和下一步状态 S’
根据策略Q,按照下一状态 S’,选择动作 A‘(如:小概率-贪婪算法)
Q(S,A) := Q(S,A) + α[R+γQ(S‘,A‘) - Q(S,A)]
S := S‘
A := A‘
直到状态S 结束
(2) Q-Learning 算法流程:
对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0
迭代每一训练集 episode:
初始化状态 S
迭代训练集的每一步 step:
根据策略Q,按照下一状态 S,选择动作 A(如:小概率-贪婪算法)
采取动作A, 观察奖励值 R 和下一步状态 S’
Q(S,A) := Q(S,A) + α[R+γmax(Q(S‘,a)) - Q(S,A)]
S := S‘
直到状态S 结束
以上是关于增强学习的基本概念的主要内容,如果未能解决你的问题,请参考以下文章