基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2
Posted 白水baishui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2相关的知识,希望对你有一定的参考价值。
论文:Safe Reinforcement Learning with Linear Function Approximation
下载地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf
会议/年份:PMLR / 2021
Word版本下载地址(辛辛苦苦打出来的):https://download.csdn.net/download/baishuiniyaonulia/85863332
本文翻译属于半人工,有错漏请谅解。
文章目录
摘要、1、2、3
基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 —— https://blog.csdn.net/baishuiniyaonulia/article/details/125504660
4. 扩展到随机化的策略选择 Extension to randomized policy selection
第 2 节中介绍的 SLUCB-QVI 只能输出确定性策略。 在本节中,我们表明我们的结果可以扩展到随机策略选择的设置,这在实践中可能是可取的。 随机策略 π : S × [ H ] → Δ A \\pi :\\mathcalS\\times [H]\\to \\Delta _\\mathcalA π:S×[H]→ΔA 将状态和时间步映射到动作上的分布,使得 a ∼ π ( s , h ) a\\sim \\pi (s,h) a∼π(s,h) 是策略 π 建议智能体在处于状态 s ∈ S s\\in \\mathcalS s∈S 时在时间步 h ∈ [ H ] h\\in [H] h∈[H] 执行的动作。 在每个情节 k 和时间步 h ∈ [ H ] h\\in [H] h∈[H] 中,当处于状态 s h k s_h^k shk 时,智能体必须从 a 中提取其动作 a h k a_h^k ahk 安全策略 π k ( s h k , h ) \\pi _k\\left( s_h^k,h \\right) πk(shk,h) 使得 E a h k ∼ π k ( s h k , h ) c h ( s h k , a h k ) ≤ τ \\mathbbE_a_h^k\\sim\\pi _k\\left( s_h^k,h \\right)c_h\\left( s_h^k,a_h^k \\right)\\le \\tau Eahk∼πk(shk,h)ch(shk,ahk)≤τ概率很高。 我们相应地定义了一组未知的安全策略 Π ~ safe : = π : π ( s , h ) ∈ Γ h safe ( s ) , ∀ ( s , h ) ∈ S × [ H ] \\tilde\\Pi ^\\textsafe :=\\left\\ \\pi :\\pi (s,h)\\in \\Gamma _h^\\textsafe (s),\\forall (s,h)\\in \\mathcalS\\times [H] \\right\\ Π~safe :=π:π(s,h)∈Γhsafe (s),∀(s,h)∈S×[H]
其中 Γ h safe ( s ) : = θ ∈ Δ A : E a ∼ θ c h ( s , a ) ≤ τ \\Gamma _h^\\textsafe(s):=\\left\\ \\theta \\in \\Delta _\\mathcalA:\\mathbbE _a\\sim\\theta c_h(s,a)\\le \\tau \\right\\ Γhsafe(s):=θ∈ΔA:Ea∼θch(s,a)≤τ。因此,在第 k 回合的时间步 h ∈ [ H ] h\\in [H] h∈[H] 观察状态 s h k s_h^k shk 之后,智能体的策略选择必须属于 Γ h safe ( s h k ) \\Gamma _h^\\text safe(s_h^k) Γhsafe(shk) 概率很高。在这个公式中,策略 π 的(动作)价值函数定义中的期望值超过了环境和策略 π 的随机性。我们用 V ~ h π \\tildeV_h^\\pi V~hπ 和 Q ~ h π \\tildeQ_h^\\pi Q~hπ 来表示它们,以区别于 V ~ h π \\tildeV_h ^\\pi V~hπ 和 Q ~ h π \\tildeQ_h^\\pi Q~hπ 在 (2) 和 (3) 中定义,用于确定性策略 π。令 π ∗ \\pi _* π∗ 为最优安全策略,使得 V ~ h π ∗ ( s ) : = V ~ h ∗ ( s ) = sup π ∈ Π ~ safe V ~ h π ( s ) \\tildeV_h^\\pi _*(s):=\\tilde V_h^*(s)=\\underset\\pi \\in \\tilde\\Pi ^\\textsafe \\mathop\\sup \\,\\tildeV_h^\\pi (s) V~hπ∗(s):=V~h∗(s)=π∈Π~safe supV~hπ(s) 对于所有 ( s , h ) ∈ S × [ H ] (s,h)\\in \\mathcalS\\times [H] (s,h)∈S×[H]。因此,对于所有 ( a , s , h ) ∈ A × S × [ H ] (a,s,h)\\in \\mathcalA\\times \\mathcalS\\times [H] (a,s,h)∈A×S×[H],安全策略的贝尔曼方程 π ∈ Π ~ safe \\pi \\in \\tilde \\Pi ^\\textsafe π∈Π~safe 和最优安全策略是
Q
~
h
π
(
s
,
a
)
=
r
h
(
s
,
a
)
+
[
P
h
V
~
h
+
1
π
]
(
s
,
a
)
,
V
~
h
π
(
s
)
=
E
a
∼
π
(
s
,
以上是关于基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2的主要内容,如果未能解决你的问题,请参考以下文章 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2