强化学习 补充笔记(TD算法Q学习算法SARSA算法多步TD目标经验回放高估问题对决网络噪声网络)
Posted 好奇小圈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习 补充笔记(TD算法Q学习算法SARSA算法多步TD目标经验回放高估问题对决网络噪声网络)相关的知识,希望对你有一定的参考价值。
学习目标:
深入了解马尔科夫决策过程(MDP),包含TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络。基础部分见:强化学习 马尔科夫决策过程(价值迭代、策略迭代、雅克比迭代、蒙特卡洛)
学习内容:
0.基础符号
奖励:一局游戏中从开始到结束的所有奖励
R
1
,
.
.
.
,
R
t
,
.
.
.
,
R
n
.
R_1,...,R_t,...,R_n.
R1,...,Rt,...,Rn.
折扣率:
γ
∈
[
0
,
1
]
\\gamma ∈[0,1]
γ∈[0,1]
折扣回报:
U
t
=
R
t
+
γ
⋅
R
t
+
1
+
γ
2
⋅
R
t
+
2
+
.
.
.
+
γ
n
−
t
⋅
R
n
U_t=R_t+\\gamma \\cdot R_t+1+\\gamma^2\\cdot R_t+2+...+\\gamma^n-t\\cdot R_n
Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+...+γn−t⋅Rn
动作价值函数:
Q
π
(
s
t
,
a
t
)
=
E
[
U
t
∣
S
t
=
s
t
,
A
t
=
a
t
]
Q_\\pi(s_t,a_t)=\\mathbbE[U_t|S_t=s_t,A_t=a_t]
Qπ(st,at)=E[Ut∣St=st,At=at]
最有动作价值函数:已知
s
t
s_t
st和
a
t
a_t
at,不论未来采取什么样的策略
π
\\pi
π,回报
U
t
U_t
Ut都不可能超过
Q
⋆
Q_\\star
Q⋆
Q
⋆
(
s
t
,
a
t
)
=
max
π
Q
π
(
s
t
,
a
t
)
,
∀
s
t
∈
S
,
a
t
∈
A
Q_\\star(s_t,a_t)=\\max_\\pi Q_\\pi (s_t,a_t), \\forall s_t \\in \\mathcalS, a_t \\in \\mathcalA
Q⋆(st,at)=πmaxQπ(st,at),∀st∈S,at∈A
1.时间差分(TD)算法
(1)基础
利用TD训练深度Q网络(DQN),已有四元组
<
s
t
,
a
t
,
r
t
,
s
t
+
1
>
<s_t,a_t,r_t,s_t+1>
<st,at,rt,st+1>。
已知贝尔曼(Bellman)最优方程:
Q
⋆
(
s
t
,
a
t
)
⏟
U
t
的期望
=
E
S
t
+
1
∼
p
(
⋅
∣
s
t
,
a
t
)
[
R
t
+
γ
⋅
max
A
∈
A
Q
⋆
(
S
t
+
1
,
A
)
⏟
U
t
+
1
的期望
∣
S
t
=
s
t
,
A
t
=
a
t
]
\\underbraceQ_\\star\\left(s_t, a_t\\right)_U_t \\text 的期望 =\\mathbbE_S_t+1 \\sim p\\left(\\cdot \\mid s_t, a_t\\right)[R_t+\\gamma \\cdot \\underbrace\\max _A \\in \\mathcalA Q_\\star\\left(S_t+1, A\\right)_U_t+1 \\text 的期望 \\mid S_t=s_t, A_t=a_t]
Ut 的期望
Q⋆(st,at)=ESt+1∼p(⋅∣st,at)[Rt+γ⋅Ut+1 的期望
A∈AmaxQ⋆(St+1,A)∣St=st,At=at]
得到蒙特卡洛近似:
Q
⋆
(
s
t
,
a
t
)
≈
r
t
+
γ
⋅
max
a
∈
A
Q
⋆
(
s
t
+
1
,
a
)
.
Q_\\star\\left(s_t, a_t\\right) \\approx r_t+\\gamma \\cdot \\max _a \\in \\mathcalA Q_\\star\\left(s_t+1, a\\right) .
Q⋆(st,at)≈强化学习笔记:Sarsa算法