基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1
Posted 白水baishui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1相关的知识,希望对你有一定的参考价值。
论文:Safe Reinforcement Learning with Linear Function Approximation
下载地址:http://proceedings.mlr.press/v139/amani21a/amani21a.pdf
会议/年份:PMLR / 2021
Word版本下载地址(辛辛苦苦打出来的):https://download.csdn.net/download/baishuiniyaonulia/85863332
本文翻译属于半人工,有错漏请谅解。
文章目录
- 摘要 Abstract
- 1. 介绍 Introduction
- 2. 安全线性UCB的Q、V价值迭代 Safe Linear UCB Q/V Iteration
- 3. SLUCB-QVI的理论保证 Theoretical guarantees of SLUCB-QVI
- 4、5、6
摘要 Abstract
近年来,强化学习的安全性变得越来越重要。然而,现有的解决方案要么无法严格避免选择不安全的动作,这可能导致安全关键系统的灾难性结果,要么无法为需要学习安全约束的环境提供遗憾的保证。在本文中,我们通过首先将安全建模为状态和动作的未知线性成本函数来解决这两个问题,它必须始终低于某个阈值。然后,我们提出了算法,称为 SLUCB-QVI 和 RSLUCB-QVI,用于具有线性函数逼近的有限水平马尔可夫决策过程 (MDP)。我们证明了 SLUCB-QVI 和 RSLUCB-QVI 在没有违反安全性的情况下,实现了 O ~ ( κ d 3 H 3 T ) \\widetilde\\mathcalO\\left( \\kappa \\sqrtd^3H^3T \\right) O (κd3H3T) 遗憾,几乎与最先进的不安全算法相匹配,其中 H H H 是每回合的持续时间, d d d 是特征映射的维度, κ κ κ 是常数表征安全约束, T T T 是动作的总数。我们进一步提出了证实我们的理论发现的数值模拟。
1. 介绍 Introduction
强化学习(RL)是一种研究,即一个主体试图通过与未知环境的互动来最大化其预期的累积奖励。在大多数经典的RL算法中,智能体的目标是通过探索所有可能的行动来最大化长期增益。然而,在许多现实世界的系统中,自由探索所有行为甚至是不安全的游戏也可能是采取有害的行动可能会导致灾难性的结果。因此,RL算法的安全性已经成为一个严重的问题,限制了RL算法在许多现实系统中的适用性。例如,在自动驾驶汽车中,探索那些避免碰撞和损坏汽车、人和财产的政策是至关重要的。医疗应用中的转换成本限制和财务管理中的法律限制是安全关键型应用的其他例子。上述所有安全关键环境都引入了平衡奖励最大化目标和采取安全行动的限制的新挑战。
为了解决这个主要问题,学习算法需要保证它不违反一定的安全约束。从强盗优化的角度来看,研究了一个线性强盗问题,在每一轮中,都需要高概率满足线性代价约束。 对于这个问题,他们提出了高概率不违反约束条件的不后悔算法。当环境通过更具挑战性和更复杂的未知MDP设置进行建模时,旨在解决RL中安全探索问题的研究活动已经激增。许多现有的算法通过约束马尔可夫决策过程(CMDP)对RL的安全性建模,将经典MDP扩展到一个范围内对总期望成本有额外约束的设置。为了解决CMDPs中的安全要求,已经提出了不同的方法,如原始-双重策略优化、约束政策优化和奖励约束政策优化。这些算法在批量离线设置中要么没有理论保证,要么没有渐近收敛保证。在另一个研究在线设置中的CMDP的工作中提出了违反约束数量的次线性界限的算法。此外,上述论文中考虑的安全约束是由低于某一阈值的累积预期成本定义的。
在本文中,我们提出了一个上置信界(UCB)-基于算法-称为安全线性UCB Q/V迭代(SLUCB-QVI)-重点关注确定性策略选择,尊重更严格的安全要求概念,必须在每个时间步长满足一个动作以很高的概率执行。我们还提出了随机SLUCB-QVI(RSLUCB-QVI),这是一种安全的算法,专注于随机策略选择,而不违反任何约束条件。对于这两种算法,我们假设底层的MDP具有线性结构,并证明了一个遗憾界与不安全的部分相当。
我们的主要技术贡献使我们能够保证在不违反安全约束的情况下保证次线性遗憾约束,包括:1)保守地从正确定义的未知安全集子集中选择动作;2)利用仔细的算法设计来确保在面对安全约束时的乐观性,即我们提出的算法的值函数大于最优值函数。详见第2、3、4节。
符号 Notation
我们首先介绍一组在整个论文中使用的符号。我们使用小写字母表示标量,使用小写粗体字母表示向量,使用大写粗体字母表示矩阵。x的欧几里得范数记为 ∥ x ∥ 2 \\Vert x \\Vert_2 ∥x∥2。我们用 x ⊤ x^\\top x⊤表示任何列向量 x x x的转置。对于任何向量 x x x和 y y y,我们用 < x , y > <x,y> <x,y>来表示它们的内积。设 x x x为正定 d × d d\\times d d×d矩阵和 ν ∈ R d \\mathcalν∈\\mathbbR^d ν∈Rd。 ν \\mathcalν ν相对于 A \\mathbfA A的加权2-范数定义为 ∥ ν ∥ 2 = ν ⊤ A ν \\Vert \\mathcalν \\Vert_2=\\sqrt\\mathcalν^\\top\\mathbfA \\mathcalν ∥ν∥2=ν⊤Aν。对于正整数 n n n, [ n ] [n] [n]表示 1 , 2 , . . . , n \\1,2,...,n\\ 1,2,...,n。我们用 e i e_i ei来表示第 i i i个标准基向量。最后,我们对忽略对数因子的大 O O O符号使用标准的 O ~ \\tilde\\mathcalO O~符号。
1.1. 问题公式化 Problem formulation
有限视界马尔可夫决策过程 Finite-horizon Markov decision process
我们考虑一个有限水平的马尔可夫决策过程(MDP),表示为我们考虑一个有限水平的马尔可夫决策过程(MDP),表示为
M
=
(
S
,
A
,
H
,
P
,
r
,
c
)
M=(\\mathcalS,\\mathcalA, H, \\mathbbP, r,c)
M=(S,A,H,P,r,c),其中,
S
\\mathcalS
S是状态集,
A
\\mathcalA
A是动作集,
H
H
H是每一回合的长度(横向),
P
=
P
h
h
=
1
H
\\mathbbP=\\\\mathbbP_h\\_h=1^H
P=Phh=1H是转移概率,
r
=
r
h
h
=
1
H
r=\\r_h\\_h=1^H
r=rhh=1H是奖励函数,
c
=
c
h
c
=
1
H
c=\\c_h\\_c=1^H
c=chc=1H是安全量。对于每个时间步
h
∈
[
H
]
h\\in [H]
h∈[H],
P
h
(
s
′
∣
s
,
a
)
\\mathbbP_h(s'|s,a)
Ph(s′∣s,a)表示在状态
s
s
s处做出动作
a
a
a时转移到状态
s
′
s'
s′的概率,并且
r
h
:
S
×
A
→
[
0
,
1
]
r_h:\\mathcalS\\times\\mathcalA\\to[0,1]
rh:S×A→[0,1],并且
c
h
:
S
×
A
→
[
0
,
1
]
c_h:\\mathcalS\\times\\mathcalA\\to[0,1]
ch:S×A→[0,1]是奖励和约束函数。我们考虑
S
S
S和
A
A
A已知的学习问题,而转移概率
P
h
\\mathbbP_h
Ph、奖励
r
h
r_h
rh和安全量
c
h
c_h
ch是未知的,必须在线学习。智能体与未知环境相互作用,该环境被描述为
M
M
M在每个回合中。实践中,在每个回合
k
k
k和时间步
h
∈
[
H
]
h\\in[H]
h∈[H],智能体观测到状态
s
h
k
s^k_h
shk,做出动作
a
h
k
∈
A
a^k_h\\in A
ahk∈A,然后观测到一个奖励
r
h
k
:
=
r
h
(
s
h
k
,
a
h
k
)
r^k_h:=r_h(s_h^k,a_h^k)
rhk:=rh(shk,ahk),以及一种受噪声干扰的安全措施
z
h
k
=
c
h
(
s
h
k
,
a
h
k
)
+
ϵ
h
k
z_h^k=c_h(s_h^k,a_h^k)+\\epsilon_h^k
zhk=ch< 以上是关于基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1的主要内容,如果未能解决你的问题,请参考以下文章 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2