论文笔记：Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning

Posted 2022-09-23 UQI-LIUWJ

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文笔记：Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning相关的知识，希望对你有一定的参考价值。

NIPS 2022

1· abstract & intro

提出了一个基于王者荣耀1V1的强化学习环境（开悟对战平台）
- 可以模拟王者MOBA 1v1的游戏引擎
- 多agent问题（玩家agent，对手agent）
- 需要一定的泛化能力
  - 不同己方英雄（target）来控制
  - 不同敌方英雄来对战
  - ——>一个好的AI模型需要在控制不同己方英雄对战不同敌方英雄时，都有稳定的表现
- 要赢下一局比赛，agent需要进行规划、攻击、防御、连招等很多方面的动作决策，同时在部分可观测的环境中考虑对手的状态和行为

a——王者1V1（墨家机关道）地图

b——不同敌方英雄的泛化能力（比如敌方是貂蝉和干将）

c——不同己方英雄的泛化能力（比如我方是貂蝉和干将）

描述了观测、动作、奖励
- 复杂的观测和动作被定义为低维的特征
- 定义了多种奖励
提供了开源的基于python的接口
- 简单&标准的API，来使得王者荣耀上的RL简单直接
- AI Arena Competition (tencent.com)
- tencent-ailab/hok_env (github.com)

2 开悟游戏环境

2.1 游戏目标

agent最基本的目标就是摧毁敌方水晶，同时己方水晶完好
- 游戏开始后控制英雄，通过击杀敌对单位、摧毁敌方防御塔获得金币和经验
目前有的英雄是红框里的这些（看起来有点年头了，云中赛年的暃、桑启、戈雅、海月都没有233）
目前只实现了20个英雄，所以一共有20*20=400种task

2.2 agent

2.2.1 observation

对于不同英雄来说，观测空间应该是一样的
- ——>这样才可能在不同任务之间进行泛化
观测空间主要由五块组成
- （露娜应该是普攻接月光标记、鲁班是普攻接扫射，为啥橘子需要9个状态。。。）

2.2.2 动作空间

也是所有英雄一致
- 摁哪个按钮
- 以谁为目标
- 怎么执行这个动作（释放动作/移动的方位）

2.2.3 奖励

2.2.4 episode dynamics

在开悟中，每133ms进行一个动作
- ——>匹配顶层业余玩家的水平
游戏局中的限制有状态转换规则限制（比如防御塔不掉，水晶不会受伤害）

3 比较对象

开悟和不同类型的agent进行比赛

一个决策树AI（BT）
- 匹配黄金段位水准
训练的agent

4 validation

在接下来的实验中，购买的装备数，学习的技能都是一样的（重点关注agent比赛中的技巧）

4.1 baseline

使用了PPO和APE-X DQN

使用和原始论文一致的超参数和配置

4.2 在不同资源上的可行性

（貂蝉内战）

通过实验证明，CPU数量（非GPU数量）是决定战胜BT所需时间的因素

CPU核越多，所需时间越少

4.3 不同模型的表现

（貂蝉内战）

4.4 和BT的比较

PPO VS BT

5 对战RL的泛化能力挑战

随着双方英雄的不同，环境也随即发生改变，这里开展了两个实验来说明强化学习迁移性的挑战。

5.1 不同对手之间的迁移能力

红色：用貂蝉内战进行训练，用貂蝉和20个英雄对战进行测试
绿色：multi-task，用貂蝉和貂蝉/火舞/露娜/干将/钟馗的对战进行训练，用貂蝉和20个英雄对战进行测试
蓝色：丛五个模型中蒸馏，得到student network，用策略来控制貂蝉和20个英雄对战进行测试

5.2 不同玩家控制英雄之间的迁移能力

5.3 不同等级的模型（用于评估）

不难发现，在5.1和5.2中，各种方法下，打婉儿、老虎、鲁班的胜率都是0，这不利于评价和衡量模型

——>这里提供了不同等级的trained agent

以上是关于论文笔记：Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning的主要内容，如果未能解决你的问题，请参考以下文章