使用策略相似性嵌入改进强化学习的泛化

Posted 雨夜的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用策略相似性嵌入改进强化学习的泛化相关的知识,希望对你有一定的参考价值。

强化学习(RL) 是一种序列决策范式,用于训练智能代理处理复杂任务,例如机器人运动、玩电子游戏、飞行平流层气球和设计硬件芯片。虽然 RL 代理已在各种活动中显示出有希望的结果,但很难将这些代理的能力转移到新的任务,即使这些任务在语义上是等效的。例如,考虑一个跳跃任务,其中一个智能体从图像观察中学习,需要跳过障碍物。深度强化学习智能体在这些任务中的一些任务上训练有素,障碍物位置不同,很难成功地跳过以前看不见的位置的障碍物。

在“对比行为相似曲面嵌入的泛化强化学习”,呈现为一个聚光灯在ICLR 2021,我们结合RL的固有顺序结构为代表的学习过程,以提高泛化看不见的任务。这与这项工作之前的主要方法是正交的,这些方法通常改编自监督学习,因此在很大程度上忽略了这个顺序方面。我们的方法利用了这样一个事实,即当代理在具有相似基础机制的任务中运行时,至少表现出在这些任务中相似的短行为序列。

我们的方法训练代理学习当代理在这些状态和未来状态中的最佳行为相似时状态接近的表示。这种接近度的概念,我们称之为行为相似性,可以推广到不同任务之间的观察。为了测量不同任务中状态之间的行为相似性(例如,跳跃任务中的不同障碍物位置),我们引入了策略相似性度量( PSM ),这是一种受互模拟启发的理论上有动机的状态相似性度量。例如,下图显示了代理在两种视觉上不同的状态下的未来动作是相同的,根据 PSM 使这些状态相似。

为了增强泛化,我们的方法学习状态嵌入,它对应于基于神经网络的任务状态表示,将行为相似的状态(如上图)结合在一起,同时将行为不同的状态分开。为此,我们提出了对比度量嵌入(CME),它利用对比学习的好处来学习基于状态相似性度量的表示。我们使用策略相似性度量(PSM)实例化对比嵌入来学习策略相似性嵌入(PSE)。PSE 将相似的表示分配给在这些状态和未来状态具有相似行为的状态,例如上图中显示的两个初始状态。

如下图所示,PSE 显着增强了前面提到的像素跳跃任务的泛化能力,优于先前的方法。

方法 网格配置

“宽的” “狭窄的” “随机的”

正则化 17.2 (2.2) 10.2 (4.6) 9.3 ( 5.4)

PSE 33.6 (10.0) 9.3 (5.3) 37.7 (10.4)

数据增加 50.7 (24.2) 33.7 (11.8) 71.3 (15.6)

数据八月+双模拟 41.4 (17.6) 17.4 (6.7) 33.4 (15.6)

数据 8 月 + PSE 87.0 (10.1) 52.4 (5.8) 83.4 (10.1)

我们还通过使用UMAP(一种流行的高维数据可视化技术)将PSE 和基线方法学习到的表示形式投影到 2D 点来可视化。如可视化所示,与先前的方法不同,PSE 将行为相似的状态聚集在一起,并将不同的状态分开。此外,PSE 将状态分为两组:(1)跳转前的所有状态和(2)动作不影响结果的状态(跳转后的状态)。

结论

总体而言,这项工作显示了利用 RL 中的固有结构来学习有效表示的好处。具体来说,这项工作通过两个贡献推进了强化学习的泛化:策略相似性度量和对比度量嵌入。PSE 结合了这两种思想来增强泛化能力。未来工作令人兴奋的途径包括寻找更好的方法来定义行为相似性并利用这种结构进行表征学习。

强化学习介绍

强化学习算法类型

技术图片

 

 

策略梯度:可直接区别以上的目标

基于值:估计最优策略(不明确哪个是最优的策略情况下估计)的值函数和Q函数

Actor-critic(演员-评论家):使用当前策略去估计值函数和Q函数来改进策略

基于模型:估计转换模型,接着

     1.让该模型去规划不明确的策略

     2.让该模型去改进策略

     3.其他

 

比较:

有监督学习:几乎都是使用梯度下降

强化学习:通常不使用梯度下降

 

特定算法示例:

• 值函数方法

  • Q-learning, DQN

  • Temporal difference learning

  • Fitted value iteration

• 策略梯度方法

  • REINFORCE

  • Natural policy gradient

  • Trust region policy optimization

• Actor-critic方法

  • Asynchronous advantage actor-critic (A3C)

  • Soft actor-critic (SAC)

• Model-based方法

  • Dyna

  • Guided policy search

 

应用举例:

例1: 用Q函数玩Atari games

论文参考:

• Playing Atari with deep reinforcement learning, Mnih et al. ‘13

• Q-learning with convolutional neural networks

技术图片

 

 

 

例2: 机器人和基于模型的强化学习

论文参考:

• End-to-end training of deep visuomotor policies, L.* , Finn* ’16

• Guided policy search (model-based RL) for image-based robotic manipulation

 

例3: 用策略梯度实现走路

论文参考:

• High-dimensional continuous control with generalized advantage estimation, Schulman et al. ‘16

• Trust region policy optimization with value function approximation

技术图片

 

 

 

 例4: 用Q函数实现机器人抓取

论文参考:

• QT-Opt, Kalashnikov et al. ‘18

• Q-learning from images for real-world robotic grasping

技术图片

 

以上是关于使用策略相似性嵌入改进强化学习的泛化的主要内容,如果未能解决你的问题,请参考以下文章

强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)

强化学习第七章

强化学习笔记:置信域策略优化 TRPO

模仿学习笔记:行为克隆

《统计学习方法》学习笔记之第一章

论文研读笔记——基于障碍函数的移动机器人编队控制安全强化学习