腾讯多任务强化学习算法登上顶刊TPAMI

Posted 2023-03-03 一阙词

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了腾讯多任务强化学习算法登上顶刊TPAMI相关的知识，希望对你有一定的参考价值。

一、概要

编辑

切换为居中
添加图片注释，不超过 140 字（可选）
论文标题：
Curriculum-based Asymmetric Multi-task Reinforcement Learning
论文链接：
https://arxiv.org/pdf/2211.03352.pdf
代码链接：
https://github.com/huanghanchi/CAMRL
这是一篇2022年被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 接收的强化学习领域的文章，作者们提出了一种基于课程学习的多任务强化学习算法。 TPAMI 是计算机科学和人工智能最顶级的期刊，2021-2022影响因子24.314，在CCF认定的所有计算机期刊中排名第一。

这篇文章首次提出一个基于课程学习的非对称多任务强化学习算法，命名为CAMRL，用于同时处理多个强化学习任务。为了缓解基于课程的非对称多任务学习（ATML）中，一次性定制任务训练顺序所带来的负面影响，CAMRL根据有关训练时间、整体性能和任务间性能差距的指标，在并行单任务强化学习和非对称多任务强化学习之间灵活切换训练模式。为了灵活地利用多源先验知识并减少AMTL中的负面迁移，作者们定制了一个具有多个可微分排名函数的复合损失，并在AMTL训练阶段通过交替优化和Frank-Wolfe算法来优化复合损失。在优化过程中，本文应用基于不确定性的超参数自动调整算法，以自适应更新复合损失中每个子项的系数。通过优化复合损失，CAMRL预测执行完当前任务后要执行的下一个训练任务，并不断更新代表任务间迁移量的transfer matrix和以及针对每个任务配备的网络的权重。最后，论文在多任务强化学习的各种基准上，包括Gym-minigrid、Meta-world、Atari视频游戏、基于视觉的PyBullet任务和RLBench，开展了非常广泛的实验，结果表明：CAMRL相比于其对应的单任务强化学习算法和SOTA的多任务强化学习算法，有着明显的效果提升。
二、介绍
多任务学习（MTL）同时利用相似性和任务之间的差异来同时训练多个相关的任务。然而，在实际的MTL训练过程中，并非所有的任务都能从联合学习中受益，因为负面迁移问题（negative transfer）会经常发生。为了缓解该问题，现有工作提出每一对任务之间的不对称转移，希望从训练的更有信心的网络迁移到一个相对不那么有信心的网络的迁移数量要比反过来的大。其核心思想是：通过基于课程的非对称多任务学习（AMTL），在每两个任务之间学习一个稀疏的加权定向正则化图。这个想法在监督学习中已被证明非常有效，而在强化学习中未被探索过。

在本文中，受AMTL的启发，作者研究如何在多任务强化学习（MTRL）中缓解负面迁移的问题。这里要注意，将AMTL技术适配到强化学习（RL）应用里面并不容易。由于训练RL任务时的非平稳性以及缺乏对RL任务属性的先验知识的利用，如果直接采用基于课程的AMTL来逐个训练任务，而不对训练顺序进行适当的修正，那么很可能最终会在任务之间学习到一个非常糟糕的正则化图。此外，现有的关于AMTL的工作忽略了很多训练过程中较为重要的因素，例如，代表相对训练进度的指标、任务之间互相迁移后的性能、以及行为多样性。对上述因素的忽略可能导致RL任务回报曲线的收敛需要更长时间的训练，且在收敛之前可能造成严重的负面迁移。此外，值得注意的是，一直执行基于课程的AMTL是很耗时的，并且当每个任务都训练得不好或都训练得很好时，执行基于课程的AMTL可能会导致性能下降。因此，RL任务在不同的训练阶段对课程学习有不同的需求，不同任务间中互相学习的经验量需要被动态调整。

为处理上述问题，论文提出了CAMRL – 第一个基于课程的非对称多任务强化学习算法。首先，为平衡效率和基于课程的跨任务迁移量，该论文设计了一个综合指标，对训练过程的多个因素进行加权，以决定在并行单任务学习和基于课程的AMTL之间切换哪种训练模式。之后，为了避免自定义训练任务的一次性顺序，CAMRL在每个epoch开始时重新计算上述指标以切换训练模式。当进入AMTL训练模式时，CAMRL通过交替优化和Frank-Wolfe算法优化复合损失函数以更新训练顺序、正则化图（任务间的迁移量矩阵）和网络权重。该损失函数同时规范化了outgoing迁移量和多个网络权重的相似性。此外，本文还提出了三个新颖的可微分排名函数，以灵活地将各种先验知识（如相对训练难度、相互评价的性能和任务之间的相似性）纳入复合损失中。最后，本文从多个角度讨论了CAMRL的灵活性及其局限性，以阐明将基于课程的AMTL进一步融入RL需要注意的各种问题。

总的来说，本文的贡献如下：
• 提出CAMRL（基于课程学习的多任务强化学习）算法。CAMRL新颖地制定并行单任务与课程多任务训练模式的灵活切换机制和一个包含多个可微分排名函数的复合损失。上述设计缓解了多任务强化学习中负面迁移、效率低下、缺乏对先验知识的利用等常见问题。

• CAMRL可以与各种基于强化学习的算法和训练模式搭配，也可以吸收各种先验知识和任意数量的训练因子的排名信息，这在以前的MTRL工作中是很少见的。更重要的是，CAMRL可以动态地自适应调整参数，只要稍加修正就能快速适应新任务到来的场景。

• 在一系列低/高维RL任务上的实验表明，CAMRL明显优于对应的单任务RL算法和目前最先进的多任务RL算法。
三、算法

编辑

切换为居中
算法pipeline
CAMRL的pipeline如上图。在CAMRL中，作者定制了与学习进度相关的指标，以确定在每个epoch开始时是执行并行单任务训练还是基于课程的AMTL。当执行基于课程的AMTL时，该论文用一个复合损失函数来学习任务和任务之间的转移，并应用交替优化和Frank-Wolfe算法来更新训练顺序、正则化图（任务间的迁移量矩阵）和网络权重。同时，损失中的超参数根据每个epoch的历史不确定性自动调整。当新任务到达时，CAMRL可以通过仅修改任务间迁移量矩阵来快速适应新方案。

CAMRL的总体训练过程如算法1。假设各个任务难度不同，一开始，我们只需为每个任务配备一个soft actr-critic（SAC）网络，然后执行几个epoch的并行单任务训练。接下来，根据与学习进度有关的指标，CAMRL决定是否将模式切换到基于课程的AMTL，该模式通过优化一个正则化任务之间迁移量矩阵的复合损失来一一训练任务。

算法1
3.1课程多任务学习
在课程多任务学习中，令B为T*T的表征任务间迁移量的矩阵，wt为任务t的SAC算法的网络参数。对于t∈[T]，令，其中Bst指的是用ws来表达wt的正权重。令，则课程多任务学习的损失为：（2）
其中代表从任务t向其他任务对外的迁移量，
用来控制稀疏性，是任务t的策略损失。
由于同时训练W和B可能会导致严重的负迁移和维度灾难，论文利用公式（2）寻找训练任务的最佳顺序（每次选择在当前状态下令损失函数最小的任务），在训练每个任务t时只优化和wt，而非B和W。

编辑

切换为居中
添加图片注释，不超过 140 字（可选）

在通过对公式(4)进行交替优化，选择完接下来要学习的任务并更新后，文章[2]对公式(4)进行了优化（贪婪地最小化公式（3）），从而得到下述公式（5）：

3.2损失调整
为合理地分配每两个任务之间的迁移量并避免过多的负迁移，我们根据下述偏好修改CAMRL中的损失项：
（i）令pt,i表示通过使用最初用于训练任务t的网络，在训练任务i上的表现。当训练任务t时，如果该论文可以测试几个任务之间的可迁移性（对于某些任务i1, i2, - - - iq，得到排序pt,i1 > pt,i2 > - - > pt,iq），那么该论文希望Bt,i1 > Bt,i2 > - - > Bt,iq尽可能的成立，也就是说，在其他任务上的评价性能越好，在这些任务上的迁移数量越大。为满足上述要求，该论文希望越小越好，其中j为pt,ij在排序pt,i1 > pt,i2 > - - > pt,iq中的排名，yij为Bt,ij在Bt,i1 > Bt,i2 > - - > Bt,iq的排名。
正常情况下，yij为Bt,i1, Bt,i2, - - , Bt,iq的不可微函数，为此，该论文用Bt,i1, Bt,i2, - - , Bt,iq的可微函数y’ij来代替yij：

编辑

切换为居中
添加图片注释，不超过 140 字（可选）
上述可微排名函数的想法借鉴自[22]。Ayman[22]定制了一个激活函数，用多个tanh函数的组合以近似阶梯函数的等距点。本文中该论文根据不同点集的组合来修改截距表示，以使新的可微排名损失可以近似不等距截点的阶梯函数。经过上述修改，除了相对的训练难度和任务之间的相互评价性能外，如下文所述，该论文的排名损失还可结合各种先验知识和训练因素，以避免负面转移。

（ii）如果任务i比较容易训练，也就是说，有一个较小的 L(wi )，那么该论文希望从任务t到任务i的迁移数量较少。这是因为如果一个任务容易训练。这是因为，如果一项任务容易训练。即训练进度比其他任务快，那么从其他难以训练（即训练进度较慢）的任务迁移到该任务的迁移量直观地讲应该更小。为达到此目的，该论文做了如下操作：

添加图片注释，不超过 140 字（可选）
（iii）如果任务i与任务t更相似，那么该论文希望从任务t到任务i的迁移量要更大。

综合以上三个排序损失函数，该论文对公式（4）做出如下修正：

添加图片注释，不超过 140 字（可选）
为优化公式（6）中的目标，该论文首先固定b ，选择使公式（6）最小的任务t。之后，该论文固定t，应用Frank-Wolfe算法，在保证收敛的情况下优化b。最后，固定b，用公式（1）（见算法1）中的策略损失来训练任务t，训练长度为K个epochs。
3.3 损失优化

添加图片注释，不超过 140 字（可选）
在实验中，该论文应用以下迭代方法来解决约束优化问题（7）：vanilla Frank-Wolfe [23], momentum Frank-Wolfe [24], projected gradient descent (PGD), PGDMadry [25], the General Iterative Shrinkage and Thresholding algorithm (GIST) [26] 。其中，vanilla Frank-Wolfe在相同的迭代次数下实现了更小的目标函数值和更好的收敛性能。因此该论文使用vanilla Frank-Wolfe来优化bt（该算法在第m次迭代时的收敛率与收敛率的详细证明见附录）。

超参数的动态调整该论文把公式(6)中每个子项的优化作为一个多任务学习问题，并根据每项在历史epoch中的标准差自动调整λ参数，这大大省去了原本费力的超参数分析。
3.4CAMRL的优势
首先，CAMRL是灵活的：（i）CAMRL可以根据学习进度的相关指标，在并行单任务训练和基于课程的AMTL模式之间自由切换。(ii) CAMRL的子组件有很多变体，可以与不同的RL基线算法和训练模式相搭配。CAMRL对网络结构和学习模式不作限制。例如，W可以是整个网络的参数。当有大量的任务时，该论文可以共享整个网络的核心部分，而让W只作为网络的一个小子集以节省内存。

其次，CAMRL在缓解负迁移方面是很有希望的。一方面，通过考虑B的1-norm约束，并应用Frank-Wolfe来满足该约束，CAMRL可以在一定程度上避免过度迁移。另一方面，通过定制和利用关于学习进度的指标和相互测试的表现的指标， CAMRL可以在一定程度上避免过度迁移。

第三，CAMRL的损失函数可以从多个方面获取信息，以提高RL任务训练的效率。具体而言，等式（4）中的损失函数考虑了迁移矩阵的正定性和稀疏性，不同任务的训练难度，相互测试的性能以及每两个任务之间的相似性。得益于该论文定制化地能够吸收（部分或全部）排名信息的可微分排名损失，CAMRL可以充分利用各种现有的先验知识和训练因素，无论因素的数量如何。

第四，CAMRL消除了对费力的超参数分析的需求。具体而言，CAMRL允许复合损失中的超参数自动调整，并将自动调整过程视为多任务学习问题。CAMRL将一种基于不确定性的多任务学习方法用于自动更新超参数。

第五，通过将B更改为 [B，（0，（0，…，0）>; （0，…，0），1]，CAMRL可以自动适应新任务，而不会影响原来的任务。
四、实验
该论文将CAMRL与现有的sota多任务强化学习算法应用于Gymminigrid , Meta-world、Atari游戏、Ravens和RLBench等多任务RL社区中广泛使用的基准上。为证明CAMRL算法的性能，该论文将actor-critic、SAC、mastering rate based online curriculum learning（MRCL）、YOLOR、Distral、gradient surgery，和soft module 作为baseline进行比较。在已实施的实验中，无论任务规模是大是小，CAMRL都能很好地工作。此外，它很少暴露出严重的负面迁移，有时还能对其他baseline难以训练的任务做出明显的贡献。

该论文对CAMRL进行了丰富的消融研究、超参数研究、对迁移量矩阵B的可视化研究、对CAMRL纳入先验能力的研究，详情请见原文。
五、讨论
5.1 CAMRL的潜在改进
(i) 考虑更多的对于超参数μj （j=1，2）和λj （j=1，2， 3，4）的自动调整方法，以及允许μj 是学习进度和其他因素的时变函数。

(ii) 通过整合e intermediate difficulty、多样性、惊喜、能量等来丰富损失的指标。或者挖掘出对损失函数最重要的因素，用最显著的因素取代损失中不太重要的因素。

(iii) 设计用于选择所有网络参数W的最佳子集的算法。

(iv) 将B转化为一个非线性函数，并在理论指导下进行更新。

(v) 在AMTL训练过程中，应用滑动窗口、指数折现因子、适当的熵损失，或其他技巧来缓解非平稳性。
5.2 其他MTRL算法的劣势
当存在许多任务时，该论文可能很难找到所有任务所拥有的共同特征，因此类似于蒸馏的算法可能表现得很糟糕。与此不同的是，除了通过一个大的网络来提炼所有任务的共同特征外，该论文的B矩阵探测了每一对任务之间的迁移关系，使该论文能够在任务之间进行不对称的转移，如此，CAMRL便不会受到上述问题的困扰了。

此外，对于具有modular paradigm的多任务学习算法来说，负迁移可能很严重，因为早期的任务关系是不正确的，不良影响可能一点点地积累起来最后爆炸。此外，一些算法可能需要很长的时间才能大约捕捉到正确的任务关系，而当这种关系被很好地学会时，由负迁移引起的影响可能已经不可逆转。对于此类现象，CAMRL通过将B初始化为单位矩阵（开始时没有任务迁移），在B上添加约束条件，并在各种训练模式之间进行切换，从而减轻负转移，且促使在相对较早的阶段学到一个好的B矩阵，使困难任务的训练受到其他任务的积极影响。
六、结论
本文提出了一种新型的多任务强化学习算法CAMRL（基于课程的非对称多任务强化学习）。 CAMRL根据多个动态因素，在并行单任务和基于课程的 AMTL之间切换训练模式。

作者们开发了一个复合损失函数来减少多任务学习中的负迁移。除了正则化任务的向外迁移和网络权重的相似性外，该论文还在损失中引入了三个可微分的排序函数，以灵活地纳入各种先验知识。该论文利用Frank-Wolfe的交替优化（附录含Frank-Wolfe应用于CAMRL的收敛性证明与实验过程收敛情况的可视化）来优化损失，并采用了基于不确定性的超参数自动调整机制来消除费力的超参数分析。大量实验证明了CAMRL的有效性。同时，在章节3.4中，该论文从不同角度出发的分析证明了CAMRL的灵活性。

在未来，该论文计划用更多的理论见解来研究CAMRL，并考虑讨论部分中列出的潜在改进，例如将更多的先验知识纳入损失函数，设计非线性版本的迁移量矩阵，以及克服AMTL训练期间的非平稳性。
七、作者介绍
Hanchi Huang （黄含驰），于2021年获得上海交通大学数学系的学士学位，于2022年获得新加坡南洋理工大学人工智能专业的硕士学位。现今在百亿私募聚宽投资就职，此前在腾讯AI实习，研究兴趣为强化学习。

Deheng Ye（叶德珩），现今为腾讯AI的首席研究员和团队负责人，带领工程师和研究员团队研发大规模机器学习平台和AI智能体。其研究兴趣为机器学习的应用、强化学习和软件工程。叶德珩于2016年在新加坡南洋理工大学计算机科学与工程学院完成博士学位。常年担任NeurIPS、ICML、ICLR、 AAAI和IJCAI的PC/SPC。

Li Shen （沈力），于2017年在华南理工大学数学学院获得博士学位。现今为京东探索院的研究科学家，此前为腾讯的研究科学家。沈博士的研究兴趣包括大规模凸/非凸/最大优化问题的理论和算法，以及它们在统计机器学习、深度学习、强化学习和博弈论中的应用。

Wei Liu （刘威），现今为腾讯的杰出科学家，腾讯数据平台的广告多媒体AI总监。刘博士长期致力于人工智能核心领域的基础研究和技术研发，包括深度学习、机器学习、计算机视觉、模式识别、信息检索、大数据等。刘博士目前在IEEE TPAMI、TNNLS、IEEE Intelligent Systems 和 Transactions on Machine Learning Research的编委会，也曾担任NeurIPS、ICML、CVPR、ICCV、IJCAI和 AAAI等顶会的Area Chair。

注：本文是在腾讯完成，通讯作者为Deheng Ye和Wei Liu。

以上是关于腾讯多任务强化学习算法登上顶刊TPAMI的主要内容，如果未能解决你的问题，请参考以下文章