论文研读笔记——基于障碍函数的移动机器人编队控制安全强化学习
Posted 小王爱学习1234
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文研读笔记——基于障碍函数的移动机器人编队控制安全强化学习相关的知识,希望对你有一定的参考价值。
基于障碍函数的移动机器人编队控制安全强化学习(Barrier Function-based Safe Reinforcement Learning for Formation Control of Mobile Robots)
最近我在学习多机器人编队导航的论文,此篇文章为“X. Zhang, Y. Peng, W. Pan, X. Xu and H. Xie, “Barrier Function-based Safe Reinforcement Learning for Formation Control of Mobile Robots,” 2022 International Conference on Robotics and Automation (ICRA), 2022, pp. 5532-5538, doi: 10.1109/ICRA46639.2022.9811604.”的论文学习笔记,只供学习使用,不作商业用途,侵权删除。并且本人学术功底有限,如果有思路不正确的地方欢迎批评指正!
摘要
分布式模型预测控制(DMPC)关注如何有效地在线控制多个有约束的机器人系统。然而,动态系统模型和约束的非线性、非凸性和强互连可以使实时和现实世界的 DMPC 实现变得不平凡。强化学习 (RL) 算法有望用于控制策略设计。然而,如何在 RL 的状态约束方面确保安全仍然是一个重要问题。提出一种基于障碍函数的安全强化学习算法,用于状态约束下的非线性多机器人系统DMPC。所提出的方法由几个基于本地学习的 MPC 监管机构组成。每个与本地系统相关联的调节器都使用安全的强化学习算法以分布式方式学习和部署本地控制策略,即仅在相邻代理之间使用状态信息。作为所提出算法的一个突出特点,文中提出了一种新颖的基于障碍的策略结构来确保安全,该结构具有清晰的机制解释。具有防撞功能的移动机器人的编队控制的模拟和真实世界实验都表明了所提出的 DMPC 安全强化学习算法的有效性。
介绍
近年来,多机器人系统的分布式模型预测控制(DMPC)在[1]-[3]系统中受到了广泛的关注。与集中控制解决方案相比,分布式控制结构更高效、可扩展、维护[4]更友好。一个基于状态约束的多机器人控制的解决方案依赖于一个基于模型预测控制(MPC)[5],[6]的分布式结构。在这种情况下,许多DMPC方法被提出为[7]-[11],其中将局部MPC问题转化为几个优化问题,这些问题可以与邻居的信息交换并行在线解决。这样的过程需要定期访问本地的板载计算资源。为了减少计算负担,提出了一种显式分布式MPC算法[12],该算法首先离线计算一组与标记的单独约束区域相关联的分段显式控制策略。然后,根据州所在的区域在线搜索控制策略。然而,该方法仅针对线性系统进行设计,并依赖于系统的可分性假设。
在不同的环境下,基于强化学习(RL)和自适应动态规划(ADP)的分布式解决方案在过去的几十年[13]-[19]也受到了极大的关注。在基于RL的分布式方法中,RL和ADP通常依赖于参与者-批评结构,以正向的方式学习无限水平最优控制问题的近最优控制策略。与DMPC相比,分布式RL方法[13]-[19]可以更有效地解决优化问题。此外,由此产生的控制策略可以离线学习和在线部署,大大减少了计算负载。鉴于关键特征,演员-批评强化学习被用于一种后退的方式来学习[20]-[22]中集中式MPC的显式控制策略。在本文中,文中将工作[20]-[22]扩展到多代理的分布式控制场景。
至关重要的是,在许多安全关键分布式控制应用中,状态约束是一项困难的任务,也是一项艰巨的任务,也是不可或缺的要求。据作者所知,这个问题在上述基于学习的MPC[20]、[21]和RL算法[13]-[19]、[23]、[24]中还没有得到解决。在[25]中,提出了一种用于多机器人运动规划的安全强化学习算法。利用基于李亚普诺夫障碍的代价函数整形方法的代价函数,利用脉冲势场重建代价函数。然而,这种成本函数塑造处理可能会引入成本函数梯度的突变,容易导致行为者网络和批评者网络的权值的发散行为。
本文提出了一种基于屏障函数的非线性多机器人系统,针对分布式MPC(DMPC)的安全强化学习(BSRL)方法,称为SL-DMPC。该方法由几个基于BSRL的MPC调节器组成。每个调节器与本地系统相关联,以分布式的方式使用BSRL算法学习和部署本地MPC策略,即只在邻居代理之间进行状态信息交换。请注意,如何保证在国家约束下学习安全在强化学习社区仍然是一个挑战。在提出的BSRL算法中,不同于[25],[27],[28]不同,文中提出了一种新的基于障碍的控制策略结构,以保证状态约束下的学习安全,它对安全证书有清晰的机制解释。
与带有数值解的DMPC不同,SL-DMPC的实现依赖于几种基于障碍的行为评论家RL算法,为每个代理生成一个局部显式的状态反馈控制策略,而不是使用策略梯度的开环控制序列。这些本地控制策略可以同步学习和部署,也可以离线学习并在线部署。此外,还证明了基于屏障的强化学习算法在每个预测领域的安全保证。通过了模拟和真实的移动机器人编队控制实验,证明了所提出的SL-DMPC的有效性。
本文的其余部分组织如下。第二节介绍了线性动力系统的问题公式和DMPC的初步介绍。在第三节中,提出了针对非线性系统的SLDMPC算法。并对其进行了理论分析。在第四节中,演示了移动机器人非线性编队控制的仿真和实际实验结果。结论见第五节。
符号:文中使用
N
l
1
l
2
\\mathbbN _l_1^l_2
Nl1l2来表示整数
l
1
,
l
1
+
1
,
…
,
l
2
l_1,l_1+1,\\dots ,l_2
l1,l1+1,…,l2的集合。对于一组载体
z
i
∈
R
n
i
,
i
∈
N
1
M
z_i\\in\\mathbbR ^n_i,i\\in\\mathbbN_1^M
zi∈Rni,i∈N1M,文中使用
c
o
l
i
∈
N
1
M
(
z
i
)
\\rm col_i\\in\\mathbbN_1^M(z_i)
coli∈N1M(zi)表示
[
z
1
T
,
…
,
z
M
T
]
T
[z_1^\\rm T,\\dots ,z_M^\\rm T]^\\rm T
[z1T,…,zMT]T,其中
M
M
M是一个整数。文中使用
u
(
k
)
u(k)
u(k)表示由控制序列
u
(
k
)
,
…
,
u
(
k
+
N
−
1
)
u(k),\\dots ,u(k+N-1)
u(k),…,u(k+N−1)形成的控制策略,其中
N
N
N为MPC的预测范围,
k
k
k为离散时间指数。
对DMPC的问题制定和初步研究
A.问题表述
所控制的整个系统由
M
M
M个离散时间、非线性、相互作用的子系统组成,描述为:
对于
∀
N
i
M
\\forall \\mathbbN_i^M
∀NiM,其中
x
i
∈
χ
i
⊆
R
n
i
x_i\\in\\chi _i\\subseteq \\mathbbR^n_i
xi∈χi⊆Rni和
u
i
⊆
R
m
i
u _i\\subseteq \\mathbbR^m_i
ui⊆Rmi状态和输入变量与子系统
∑
i
\\sum_i
∑i,而
k
k
k是离散时间指数,
f
i
∈
R
n
i
f_i \\in\\mathbbR^n_i
fi∈Rni和
g
i
∈
R
n
i
×
m
i
g_i \\in\\mathbbR^n_i\\times m_i
gi∈Rni×mi平滑状态转换和输入映射函数和
f
i
(
0
)
=
0
f_i(0)=0
fi(0)=0。本地状态集被定义为
χ
i
=
x
i
∈
R
∣
B
i
t
(
x
i
)
≤
0
,
t
∈
N
1
q
i
\\chi _i=\\x_i\\in \\mathbbR|B_i^t(x_i)\\le0,t\\in \\mathbbN^q_i_1\\
χi=xi∈R∣Bit(xi)≤0,t∈N1qi,
i
∈
N
1
M
i \\in \\mathbbN^M_1
i∈N1M,
B
i
t
B_i^t
Bit是一个
C
1
C_1
C1函数,和
χ
=
χ
1
×
⋯
×
χ
M
\\chi=\\chi_1\\times\\dots\\times\\chi_M
χ=χ1×⋯×χM。
从(1)收集所有子系统,整体集中的动态模型,记为
∑
\\sum
∑,可以写为:
其中
x
=
c
o
l
i
∈
N
1
M
(
x
i
)
∈
R
n
x=\\rm col_i\\in\\mathbbN_1^M(x_i)\\in\\mathbbR^n
x=coli∈N1M(xi)∈Rn,
n
=
∑
i
=
1
M
n
i
n=\\sum_i=1^Mn_i
n=∑i=1Mni,
u
=
c
o
l
i
∈
N
1
M
(
u
i
)
∈
R
m
u=\\rm col_i\\in\\mathbbN_1^M(u_i)\\in\\mathbbR^m
u=coli∈N1M(ui以上是关于论文研读笔记——基于障碍函数的移动机器人编队控制安全强化学习的主要内容,如果未能解决你的问题,请参考以下文章
路径规划基于人工势场的无人机编队协同路径规划matlab源码
路径规划基于人工势场的无人机编队协同路径规划matlab源码
无人机路径规划基于人工势场实现无人机编队路径规划matlab源码