增强学习的基本概念

Posted 2020-10-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了增强学习的基本概念相关的知识，希望对你有一定的参考价值。

对于增强学习的控制问题，有两个著名的基础算法：Sarsa、Q-Learning

(1) Sarsa 算法流程：

　　对于所有状态 s 以及动作 a 进行任意初始化，将所有终止状态的 Value-Action 值设为0

　　迭代每一训练集episode：

　　　　初始化状态 S

　　　　根据策略Q，按照当前的状态 S，选择动作 A（如：小概率-贪婪算法）

　　　　迭代训练集的每一步：

　　　　　　采取动作A，观察奖励值 R 和下一步状态 S’

　　　　　　根据策略Q，按照下一状态 S’，选择动作 A‘（如：小概率-贪婪算法）

　　　　　　Q(S,A) := Q(S,A) + α[R+γQ(S‘,A‘) - Q(S,A)]

　　　　　　S := S‘

　　　　　　A := A‘

　　　　直到状态S 结束

(2) Q-Learning 算法流程：

　　对于所有状态 s 以及动作 a 进行任意初始化，将所有终止状态的 Value-Action 值设为0

　　迭代每一训练集 episode：

　　　　初始化状态 S

　　　　迭代训练集的每一步 step：

　　　　　　根据策略Q，按照下一状态 S，选择动作 A（如：小概率-贪婪算法）

　　　　　　采取动作A，观察奖励值 R 和下一步状态 S’

　　　　　　Q(S,A) := Q(S,A) + α[R+γmax(Q(S‘,a)) - Q(S,A)]

　　　　　　S := S‘

　　　　直到状态S 结束

以上是关于增强学习的基本概念的主要内容，如果未能解决你的问题，请参考以下文章