论文阅读|用于不同问题的MADDPG算法框架系列论文汇总

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读|用于不同问题的MADDPG算法框架系列论文汇总相关的知识,希望对你有一定的参考价值。

MADDPG论文阅读:

论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)

1 论文1

[1] Wang,,Shengyi,Duan,,Jiajun,Shi,,Di,Xu,,Chunlei,Li,,Haifeng,Diao,,Ruisheng,Wang,,& Zhiwei.(2020).A Data-Driven Multi-Agent Autonomous Voltage Control Framework Using Deep Reinforcement Learning.IEEE TRANSACTIONS ON POWER SYSTEMS,35(6),4644-4654.

这篇文章以经典的自主电压控制问题为例,将其描述为一i个马尔可夫博弈,并用启发式方法对智能体进行划分,采用具有集中训练、分散执行特点的MADDPG算法进行学习,通过输入输出数据逐步掌握系统的运行规则。

贡献:

(1)在所提出的MA-AVC方案中,基于DRL的Agent可以通过大量的离线训练来学习其控制策略,而不需要对复杂的物理系统进行建模,并使其行为适应新的变化,包括负载/发电变化和拓扑变化等。

(2)所提出的多智能体DRL系统解决了现有DRL方法中的维数诅咒问题,并可相应地扩展应用于大规模电力系统的控制。该控制方案还可以很容易地推广应用于除AVC以外的其他控制问题。

(3)提出的MA-AVC方案中的分散执行机制可以应用于大规模的复杂能源网络,每个Agent的计算复杂度较低。同时解决了集中控制方案的通信时延和单点故障问题。

(4)提出的MA-AVC方案采用基于操作规则的策略设计实现区域控制,并对原有的MADDPG算法进行了改进,结合独立重放缓冲区稳定学习过程,协调器对协作行为进行建模,并测试了算法对弱集中通信环境的鲁棒性。

论文框架:

 Markov Game的设计:

        这篇文章针对的是部分可观测的MGs.

(1)Agent的定义:

        为了将大规模电网改造成多Agent系统,提出了一种启发式的多控制Agent划分方法。首先,根据默认的地理位置信息将电网划分为多个区域。然后,为每个座席分配一定数量的互连区域(地理分区)。因为地理分区不能保证通过调节本地发电机母线电压大小来控制每个母线电压。接下来,记录不可控的稀疏总线,并将其重新分配给其他有效的代理(分区后调整),这是以试错的方式实现的。具体地说,在地理分区后,将建立离线评估程序,并在此过程中记录不可控的公交车。然后,记录中的不可控总线将被重新分配给具有电连接的其他代理。上述分区后调整过程将反复执行,直到所有公交车都由本地资源控制为止。

 (2)状态(State)、动作(Action)和观察(Observation)、奖励的定义:

        控制动作被定义为发电机母线电压幅值的矢量,其每个元件可以在0.95PU到1.05PU的范围内连续调整。状态被定义为仪表测量的矢量,用于表示系统运行状态,例如系统范围的母线电压幅度、相角、负荷、发电和潮流。

每个代理的观测被定义为母线电压幅值的局部测量。假设每个代理只能观察和管理其自己的区域。

训练过程:

 2 论文2:

[2]Wu,,Tong,Zhou,,Pan,Wang,,Binghui,Li,,Ang,Tang,,Xueming,Xu,,Zichuan,Chen,,Kai,Ding,,& Xiaofeng.(2021).Joint Traffic Control and Multi-Channel Reassignment for Core Backbone Network in SDN-IoT: A Multi-Agent Deep Reinforcement Learning Approach.IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING,8(1),231-245.

以上是关于论文阅读|用于不同问题的MADDPG算法框架系列论文汇总的主要内容,如果未能解决你的问题,请参考以下文章

软考高级系统架构设计师系列论文五十七:论软件项目管理技术及其应用

2018年6月8日论文阅读

论文阅读一种端到端的对抗生成式视频数字水印算法

(论)知网参考论文

图论动态规划算法——Floyd最短路径

论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines