增强学习的基本概念

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了增强学习的基本概念相关的知识,希望对你有一定的参考价值。

对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning

(1) Sarsa 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集episode:

    初始化状态 S

    根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法)

    迭代训练集的每一步:

      采取动作A, 观察奖励值 R 和下一步状态 S’

      根据策略Q,按照下一状态 S’,选择动作 A‘(如:小概率-贪婪算法)

      Q(S,A) := Q(S,A) + α[R+γQ(S‘,A‘) - Q(S,A)]

      S := S‘

      A := A‘

    直到状态S 结束

 

(2) Q-Learning 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集 episode:

    初始化状态 S

    迭代训练集的每一步 step:

      根据策略Q,按照下一状态 S,选择动作 A(如:小概率-贪婪算法)

      采取动作A, 观察奖励值 R 和下一步状态 S’

      Q(S,A) := Q(S,A) + α[R+γmax(Q(S‘,a)) - Q(S,A)]

      S := S‘

    直到状态S 结束

以上是关于增强学习的基本概念的主要内容,如果未能解决你的问题,请参考以下文章

Spring学习(二十五)Spring AOP之增强介绍

Python入门-2编程基本概念:09浮点数-自动转换-强制转换-增强赋值运算符

增强学习 | 多臂赌博机模型

OpenShift基本概念

基本概念

滤波基本概念