论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning相关的知识,希望对你有一定的参考价值。

NIPS 2022

1· abstract & intro

  • 提出了一个基于王者荣耀1V1的强化学习环境(开悟对战平台)
    • 可以模拟王者MOBA 1v1的游戏引擎
    • 多agent问题(玩家agent,对手agent)
    • 需要一定的泛化能力
      • 不同己方英雄(target)来控制
      • 不同敌方英雄来对战
      • ——>一个好的AI模型需要在控制不同己方英雄对战不同敌方英雄时,都有稳定的表现
    • 要赢下一局比赛,agent需要进行规划、攻击、防御、连招等很多方面的动作决策,同时在部分可观测的环境中考虑对手的状态和行为

a——王者1V1(墨家机关道)地图

b——不同敌方英雄的泛化能力(比如敌方是貂蝉和干将)

c——不同己方英雄的泛化能力(比如我方是貂蝉和干将)

2 开悟游戏环境

2.1 游戏目标

  • agent最基本的目标就是摧毁敌方水晶,同时己方水晶完好
    • 游戏开始后控制英雄,通过击杀敌对单位、摧毁敌方防御塔获得金币和经验
  • 目前有的英雄是红框里的这些(看起来有点年头了,云中赛年的暃、桑启、戈雅、海月都没有233)
  •  目前只实现了20个英雄,所以一共有20*20=400种task

 2.2 agent

2.2.1 observation

  • 对于不同英雄来说,观测空间应该是一样的
    • ——>这样才可能在不同任务之间进行泛化
  • 观测空间主要由五块组成
    • (露娜应该是普攻接月光标记、鲁班是普攻接扫射,为啥橘子需要9个状态。。。) 

 2.2.2 动作空间

  • 也是所有英雄一致
    • 摁哪个按钮
    • 以谁为目标
    • 怎么执行这个动作(释放动作/移动的方位)

 

 

2.2.3 奖励

 2.2.4 episode dynamics

  • 在开悟中,每133ms进行一个动作
    • ——>匹配顶层业余玩家的水平
  • 游戏局中的限制有状态转换规则限制(比如防御塔不掉,水晶不会受伤害)

3 比较对象

开悟和不同类型的agent进行比赛

  • 一个决策树AI(BT)
    • 匹配黄金段位水准
  • 训练的agent

4 validation

在接下来的实验中,购买的装备数,学习的技能都是一样的(重点关注agent比赛中的技巧)

4.1 baseline

使用了PPO和APE-X DQN

使用和原始论文一致的超参数和配置

4.2 在不同资源上的可行性

(貂蝉内战)

通过实验证明,CPU数量(非GPU数量)是决定战胜BT所需时间的因素

CPU核越多,所需时间越少

 4.3 不同模型的表现

(貂蝉内战)

 4.4 和BT的比较

PPO VS BT

 5 对战RL的泛化能力挑战

随着双方英雄的不同,环境也随即发生改变,这里开展了两个实验来说明强化学习迁移性的挑战。

5.1 不同对手之间的迁移能力


  • 红色:用貂蝉内战进行训练,用貂蝉和20个英雄对战进行测试
  • 绿色:multi-task,用貂蝉和貂蝉/火舞/露娜/干将/钟馗的对战进行训练,用貂蝉和20个英雄对战进行测试
  • 蓝色:丛五个模型中蒸馏,得到student network,用策略来控制貂蝉和20个英雄对战进行测试

5.2 不同玩家控制英雄之间的迁移能力

5.3 不同等级的模型(用于评估)

不难发现,在5.1和5.2中,各种方法下,打婉儿、老虎、鲁班的胜率都是0,这不利于评价和衡量模型

——>这里提供了不同等级的trained agent

 

 

以上是关于论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning的主要内容,如果未能解决你的问题,请参考以下文章

POJ2699 The Maximum Number of Strong Kings

POJ 2699 The Maximum Number of Strong Kings Description

poj2699 The Maximum Number of Strong Kings

POJ 2699 The Maximum Number of Strong Kings (最大流+枚举)

UAF获取main_arena地址泄露libc基址

POJ2699The Maximum Number of Strong Kings(二分,最大流)