强化学习理论知识整理汇总
Posted zstar-_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习理论知识整理汇总相关的知识,希望对你有一定的参考价值。
前言
本篇旨在总结强化学习相关术语,主要参考了邹伟等人所著的《强化学习》(清华大学出版社)这本书。
策略
在状态s下执行动作a的概率。
π
(
a
∣
s
)
=
P
(
A
t
=
a
∣
S
t
=
s
)
\\pi(a \\mid s)=P\\left(A_t=a \\mid S_t=s\\right)
π(a∣s)=P(At=a∣St=s)
确定性策略:输出动作a为确定的一个动作。
随机性策略:输出动作a多个动作的概率分布。
预测与控制
预测(评估):评估当前的策略有多好,即求解既定策略下的状态值函数。
控制(改善):改善当前策略,即求解所有可能策略中最优价值函数及最优策略。
贝尔曼方程
状态值函数
状态值函数指从状态s开始,遵循当前策略
π
\\pi
π时所获得的期望回报。
V
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
R
t
+
2
+
⋯
∣
S
t
=
s
]
V_\\pi(s)=E_\\pi\\left[G_t \\mid S_t=s\\right]=E_\\pi\\left[R_t+1+\\gamma R_t+2+\\cdots \\mid S_t=s\\right]
Vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+⋯∣St=s]
通过下面的推导,可以将其化成迭代形式:
V
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
⋯
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
(
R
t
+
2
+
γ
R
t
+
3
+
⋯
)
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
G
t
+
1
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
V
(
S
t
+
1
)
∣
S
t
=
s
]
\\beginaligned V_\\pi(s) &=E_\\pi\\left[G_t \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma R_t+2+\\gamma^2 R_t+3+\\cdots \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma\\left(R_t+2+\\gamma R_t+3+\\cdots\\right) \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma G_t+1 \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma V\\left(S_t+1\\right) \\mid S_t=s\\right] \\endaligned
Vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+⋯∣St=s]=Eπ[Rt+1+γ(Rt+2+γRt+3+⋯)∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=Eπ[Rt+1+γV(St+1)∣St=s]
动作值函数
和状态值函数类似,动作值函数在状态s下多了一个选择动作a。
Q
π
(
s
,
a
)
=
E
π
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
=
E
π
[
R
t
+
1
+
γ
Q
π
(
S
t
+
1
,
A
t
+
1
)
∣
S
t
=
s
,
A
t
=
a
]
\\beginaligned Q_\\pi(s, a) &=E_\\pi\\left[G_t \\mid S_t=s, A_t=a\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma Q_\\pi\\left(S_t+1, A_t+1\\right) \\mid S_t=s, A_t=a\\right] \\endaligned
Qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γQπ(St+1,At+1)∣St=s,At=a]
贝尔曼期望方程
贝尔曼期望方程有四种表达方式。(其实就是将一个迭代图进行了拆分)
(1)基于状态s,采取动作a,求
V
π
(
s
)
V_\\pi(s)
Vπ(s) 以上是关于强化学习理论知识整理汇总的主要内容,如果未能解决你的问题,请参考以下文章
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
Q
π
(
s
,