强化学习 补充笔记(TD算法Q学习算法SARSA算法多步TD目标经验回放高估问题对决网络噪声网络)

Posted 好奇小圈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习 补充笔记(TD算法Q学习算法SARSA算法多步TD目标经验回放高估问题对决网络噪声网络)相关的知识,希望对你有一定的参考价值。

学习目标:

深入了解马尔科夫决策过程(MDP),包含TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络。基础部分见:强化学习 马尔科夫决策过程(价值迭代、策略迭代、雅克比迭代、蒙特卡洛)


学习内容:

0.基础符号

奖励:一局游戏中从开始到结束的所有奖励 R 1 , . . . , R t , . . . , R n . R_1,...,R_t,...,R_n. R1,...,Rt,...,Rn.
折扣率 γ ∈ [ 0 , 1 ] \\gamma ∈[0,1] γ[0,1]
折扣回报 U t = R t + γ ⋅ R t + 1 + γ 2 ⋅ R t + 2 + . . . + γ n − t ⋅ R n U_t=R_t+\\gamma \\cdot R_t+1+\\gamma^2\\cdot R_t+2+...+\\gamma^n-t\\cdot R_n Ut=Rt+γRt+1+γ2Rt+2+...+γntRn
动作价值函数 Q π ( s t , a t ) = E [ U t ∣ S t = s t , A t = a t ] Q_\\pi(s_t,a_t)=\\mathbbE[U_t|S_t=s_t,A_t=a_t] Qπ(st,at)=E[UtSt=st,At=at]
最有动作价值函数:已知 s t s_t st a t a_t at,不论未来采取什么样的策略 π \\pi π,回报 U t U_t Ut都不可能超过 Q ⋆ Q_\\star Q Q ⋆ ( s t , a t ) = max ⁡ π Q π ( s t , a t ) , ∀ s t ∈ S , a t ∈ A Q_\\star(s_t,a_t)=\\max_\\pi Q_\\pi (s_t,a_t), \\forall s_t \\in \\mathcalS, a_t \\in \\mathcalA Q(st,at)=πmaxQπ(st,at),stS,atA

1.时间差分(TD)算法

(1)基础

利用TD训练深度Q网络(DQN),已有四元组 < s t , a t , r t , s t + 1 > <s_t,a_t,r_t,s_t+1> <st,at,rt,st+1>
已知贝尔曼(Bellman)最优方程
Q ⋆ ( s t , a t ) ⏟ U t  的期望  = E S t + 1 ∼ p ( ⋅ ∣ s t , a t ) [ R t + γ ⋅ max ⁡ A ∈ A Q ⋆ ( S t + 1 , A ) ⏟ U t + 1  的期望  ∣ S t = s t , A t = a t ] \\underbraceQ_\\star\\left(s_t, a_t\\right)_U_t \\text 的期望 =\\mathbbE_S_t+1 \\sim p\\left(\\cdot \\mid s_t, a_t\\right)[R_t+\\gamma \\cdot \\underbrace\\max _A \\in \\mathcalA Q_\\star\\left(S_t+1, A\\right)_U_t+1 \\text 的期望 \\mid S_t=s_t, A_t=a_t] Ut 的期望  Q(st,at)=ESt+1p(st,at)[Rt+γUt+1 的期望  AAmaxQ(St+1,A)St=st,At=at]
得到蒙特卡洛近似
Q ⋆ ( s t , a t ) ≈ r t + γ ⋅ max ⁡ a ∈ A Q ⋆ ( s t + 1 , a ) . Q_\\star\\left(s_t, a_t\\right) \\approx r_t+\\gamma \\cdot \\max _a \\in \\mathcalA Q_\\star\\left(s_t+1, a\\right) . Q(st,at)强化学习笔记:Sarsa算法

强化学习笔记:Sarsa 与 Sarsa(lambda)

强化学习笔记:Sarsa 与 Sarsa(lambda)

强化学习

强化学习 5 —— SARSA 和 Q-Learning算法代码实现

Reinforcement Learning强化学习系列之四:时序差分TD