MAGNet: 面向深度多智能体强化学习（MADRL）的多智能体图网络（Graph Network）

Posted 2021-12-11 码丽莲梦露

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了MAGNet: 面向深度多智能体强化学习（MADRL）的多智能体图网络（Graph Network）相关的知识，希望对你有一定的参考价值。

《MAGNet:Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning》

[2012.09762] MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning (arxiv.org)https://arxiv.org/abs/2012.09762 这篇文章提出了一种新的多智能体强化学习方法，称为MAGNet,它利用了通过自我注意机制获得的环境的关联图表示和消息生成技术，将MAGNet应用于synthetic predator-prey 多智能体环境和Pommerman博弈，结果表明它的性能明显由于最新的MARL解决方案，包括MADQN、MADDPG、QMIX。

1 介绍

在多智能体环境中，强化学习的一个常见困难时，实现智能体之间的完美合作，智能体需要环境与自己和其他智能体的相关信息。

本文提出的MAGNet,是以关联图的形式学习这些关联信息，并将其融入强化学习过程中。该方法分为两个阶段进行。在第一阶段，学习关联图；在第二阶段，该图与状态信息一起送到Actor-Critic 强化学习网络，该网络负责主体的决策，并结合了沿关联图的消息传递技术。

下面介绍几种多智能体强化学习算法：

1.1 Multi-agent Deep Q-Networks

DQN:[1312.5602v1] Playing Atari with Deep Reinforcement Learning (arxiv.org)https://arxiv.org/abs/1312.5602v1

MADQN:

[2109.04986] Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO systems (arxiv.org)https://arxiv.org/abs/2109.04986 多Agent深度Q网络方法通过两个重复步骤中执行训练来修改多Agent系统这一过程，首先，他们一次训练一个Agent,同时保持其他Agent的策略固定。当Agent完成训练后，它会将其策略作为一个额外的环境变量分发给其他Agent.

1.2 Multi-agent Deep Deterministic Policy Gradient

当处理连续动作空间时，上述MADQN方法不能应用，为克服这一局限，提出了Actor-Critic。

DDPG：

[1509.02971] Continuous control with deep reinforcement learning (arxiv.org)https://arxiv.org/abs/1509.02971

MADDPG:

论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)_太剧烈的快乐与太剧烈的悲哀是有相同之点的——同样地需要远离人群！-CSDN博客https://blog.csdn.net/crazy_girl_me/article/details/120688681

1.3 QMIX

最近另一种有前途的深度多智能体强化学习方法是QMIX。它对每个智能体使用单独的Q函数，对一组智能体使用联合Q函数。QMIX体系结构由三种类型的神经网络组成，Agent网络（Agent Network）为接受当前观察和先前操作的Agent评估单个Q函数，混合网络(Mixing Network)将Agent网络中的单个Q函数和当前状态作为输入，然后计算所有Agent的联合Q函数，超级网络(Hyper Network)增加了混合网络的复杂性。超级网络不是直接将当前状态传递给混合网络，而是将其作为输入并计算混合网络每一层的权重乘数。我们请读者参考原文以获得更完整的解释。

[1803.11485v2] QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning (arxiv.org)https://arxiv.org/abs/1803.11485v2

2 MAGNet算法和体系架构

下图为MAGNet方法的总体网络架构。整个过程可分为关联图生成阶段(左图)和决策阶段(右图)。在此体系结构中，当前状态和前一个操作的连接形成了模型的输入，而输出则是下一个操作。下面描述这两个过程的细节。

2.1 关联图生成阶段

MAGNet方法的第一部分中，训练神经网络生成一个相关图，该图用数值矩阵|A| ×(|A|+|O|)表示，其中|A|是agent的数量，|O|是给定的环境对象的最大数量.关联图表示Agent之间以及Agent与环境之间的关系，Agent A和另Agent B或环境对象之间的边的绝对权重越高，对Agent A任务的完成就越重要。

训练关联图有两种选择：（1）为每个Agent单独训练关联图；（2）为团队中的所有Agent训练一个相同的共享图（GS）。