多智能体强化学习：多智能体系统

Posted 2022-06-03 UQI-LIUWJ

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多智能体强化学习：多智能体系统相关的知识，希望对你有一定的参考价值。

1 多智能体系统

多智能体系统 (Multi-Agent System，缩写MAS) 中包含 m 个智能体，智能体共享环境，智能体之间会相互影响。
- 一个智能体的动作会改变环境状态，从而影响其余所有智能体。

并行强化学习
- m 个节点并行计算，每个节点有独立的环境，每个环境中有一个智能体。
- 智能体之间完全独立，不会相互影响。
- 可以看成 m 个单智能体系统 (Single-Agent System ， SAS) 的并集
多智能体系统
- 只有一个环境，环境中有 m 个相互影响的智能体

eg，

让多个智能体处于相同的环境中，每个智能体独立与环境交互，利用环境反馈的奖励改进自己的策略，以获得更高的回报。在多智能体系统中，一个智能体的策略不能简单依赖于自身的观测、动作，还需要考虑到其他智能体的观测、动作。

智能体的利益一致，获得的奖励相同，有共同的目标。

假设一共有 m 个智能体，它们在 t 时刻获得的奖励分别是

，在完全合作关系中，他们的奖励是相同的

一方的收益是另一方的损失。在完全竞争的设定下，双方的奖励是负相关的：对于所有的 t，有

如果是零和博弈，双方的获得的奖励总和等于 0 ：

智能体分成多个群组；组内的智能体是合作关系，它们的奖励相同；组间是竞争关系，两组的奖励是负相关的。

系统内有多个智能体；一个智能体的动作会改变环境状态，从而让别的智能体受益或者受损。利己主义的意思是智能体只想最大化自身的累计奖励，而不在乎他人收益或者受损。
智能体之间有潜在而又未知的竞争与合作关系：一个智能体的决策可能会帮助其他智能体获利，也可能导致其他智能体受损。

不同设定下学出的策略会有所不同。
- 在合作的设定下，每个智能体的决策要考虑到队友的策略，要与队友做到尽量好的配合，而不是个人英雄主义；这个道理在足球、电子竞技中是显然的。
- 在竞争的设定下，智能体要考虑到对手的策略，相应调整自身策略；比如在象棋游戏中，如果你很熟悉对手的套路，并相应调整自己的策略，那么你的胜算会更大。
- 在利己主义的设定下，一个智能体的决策无需考虑其他智能体的利益，尽管一个智能体的动作可能会在客观上帮助或者妨害其他智能体。

符号	内容
S	状态 (State) 随机变量
s	状态的观测值
o	单个智能体未必能观测到完整状态。如果单个智能体的观测只是部分状态，我们就用表示第 i 号智能体的不完全观测。
A&a	每个智能体都会做出动作 (Action) 。把第 i 号智能体的动作随机变量记作，把动作的实际观测值记作如果不加上标 i ，则意味着所有智能体的动作的连接
	把第 i 号智能体的动作空间 (Action Space) 记作，它包含该智能体所有可能的动作。整个系统的动作空间是两个智能体的动作空间可能相同，也可能不同。
p	状态转移函数，下一个时刻的状态取决于当前时刻状态St，以及所有m个智能体的动作
R	奖励 (Reward) 是环境反馈给智能体的数值。把第 i 号智能体的奖励随机变量记作，把奖励的实际观测值记作在合作的设定下在竞争的设定下 t时刻的奖励由状态St和所有智能体的动作共同决定
U	折扣回报，定义和单智能体类似

对于 离散控制问题，把第 i 号智能体的策略网络记作：
- 的维度等于动作空间的大小
对于连续控制问题，把第 i 号智能体的策略网络记作：
- 有了这个策略网络，第 i 号智能体就可以基于当前状态 s ，直接计算出需要执行的动作
在上面的两种策略网络中，每个智能体的策略网络有各自的参数
- 在有些情况下，策略网络的角色是可以互换的，比如同一型号无人机的功能是相同的，那么它们的策略网络是相同的
- 在很多应用中，策略网络不能互换。比如在足球机器人的应用中，球员有的是负责进攻的前锋，有的是负责防守的后卫，还有一个守门员。它们的策略网络不能互换，所以参数各不相同。