基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

Posted 白水baishui

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2相关的知识,希望对你有一定的参考价值。

论文:Safe Reinforcement Learning with Linear Function Approximation
下载地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf
会议/年份:PMLR / 2021

Word版本下载地址(辛辛苦苦打出来的):https://download.csdn.net/download/baishuiniyaonulia/85863332
本文翻译属于半人工,有错漏请谅解。

文章目录

摘要、1、2、3

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 —— https://blog.csdn.net/baishuiniyaonulia/article/details/125504660

4. 扩展到随机化的策略选择 Extension to randomized policy selection

第 2 节中介绍的 SLUCB-QVI 只能输出确定性策略。 在本节中,我们表明我们的结果可以扩展到随机策略选择的设置,这在实践中可能是可取的。 随机策略 π : S × [ H ] → Δ A \\pi :\\mathcalS\\times [H]\\to \\Delta _\\mathcalA π:S×[H]ΔA 将状态和时间步映射到动作上的分布,使得 a ∼ π ( s , h ) a\\sim \\pi (s,h) aπ(s,h) 是策略 π 建议智能体在处于状态 s ∈ S s\\in \\mathcalS sS 时在时间步 h ∈ [ H ] h\\in [H] h[H] 执行的动作。 在每个情节 k 和时间步 h ∈ [ H ] h\\in [H] h[H] 中,当处于状态 s h k s_h^k shk 时,智能体必须从 a 中提取其动作 a h k a_h^k ahk 安全策略 π k ( s h k , h ) \\pi _k\\left( s_h^k,h \\right) πk(shk,h) 使得 E a h k ∼ π k ( s h k , h ) c h ( s h k , a h k ) ≤ τ \\mathbbE_a_h^k\\sim\\pi _k\\left( s_h^k,h \\right)c_h\\left( s_h^k,a_h^k \\right)\\le \\tau Eahkπk(shk,h)ch(shk,ahk)τ概率很高。 我们相应地定义了一组未知的安全策略 Π ~ safe  : = π : π ( s , h ) ∈ Γ h safe  ( s ) , ∀ ( s , h ) ∈ S × [ H ] \\tilde\\Pi ^\\textsafe :=\\left\\ \\pi :\\pi (s,h)\\in \\Gamma _h^\\textsafe (s),\\forall (s,h)\\in \\mathcalS\\times [H] \\right\\ Π~safe :=π:π(s,h)Γhsafe (s),(s,h)S×[H]

其中 Γ h safe ( s ) : = θ ∈ Δ A : E a ∼ θ c h ( s , a ) ≤ τ \\Gamma _h^\\textsafe(s):=\\left\\ \\theta \\in \\Delta _\\mathcalA:\\mathbbE _a\\sim\\theta c_h(s,a)\\le \\tau \\right\\ Γhsafe(s):=θΔA:Eaθch(s,a)τ。因此,在第 k 回合的时间步 h ∈ [ H ] h\\in [H] h[H] 观察状态 s h k s_h^k shk 之后,智能体的策略选择必须属于 Γ h safe ( s h k ) \\Gamma _h^\\text safe(s_h^k) Γhsafe(shk) 概率很高。在这个公式中,策略 π 的(动作)价值函数定义中的期望值超过了环境和策略 π 的随机性。我们用 V ~ h π \\tildeV_h^\\pi V~hπ Q ~ h π \\tildeQ_h^\\pi Q~hπ 来表示它们,以区别于 V ~ h π \\tildeV_h ^\\pi V~hπ Q ~ h π \\tildeQ_h^\\pi Q~hπ 在 (2) 和 (3) 中定义,用于确定性策略 π。令 π ∗ \\pi _* π 为最优安全策略,使得 V ~ h π ∗ ( s ) : = V ~ h ∗ ( s ) = sup ⁡ π ∈ Π ~ safe    V ~ h π ( s ) \\tildeV_h^\\pi _*(s):=\\tilde V_h^*(s)=\\underset\\pi \\in \\tilde\\Pi ^\\textsafe \\mathop\\sup \\,\\tildeV_h^\\pi (s) V~hπ(s):=V~h(s)=πΠ~safe supV~hπ(s) 对于所有 ( s , h ) ∈ S × [ H ] (s,h)\\in \\mathcalS\\times [H] (s,h)S×[H]。因此,对于所有 ( a , s , h ) ∈ A × S × [ H ] (a,s,h)\\in \\mathcalA\\times \\mathcalS\\times [H] (a,s,h)A×S×[H],安全策略的贝尔曼方程 π ∈ Π ~ safe  \\pi \\in \\tilde \\Pi ^\\textsafe πΠ~safe  和最优安全策略是

Q ~ h π ( s , a ) = r h ( s , a ) + [ P h V ~ h + 1 π ] ( s , a ) , V ~ h π ( s ) = E a ∼ π ( s ,

以上是关于基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2的主要内容,如果未能解决你的问题,请参考以下文章

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

强化学习(David Silver)6:值函数近似

(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度