论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning
Posted UQI-LIUWJ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning相关的知识,希望对你有一定的参考价值。
NIPS 2022
1· abstract & intro
- 提出了一个基于王者荣耀1V1的强化学习环境(开悟对战平台)
- 可以模拟王者MOBA 1v1的游戏引擎
- 多agent问题(玩家agent,对手agent)
- 需要一定的泛化能力
- 不同己方英雄(target)来控制
- 不同敌方英雄来对战
- ——>一个好的AI模型需要在控制不同己方英雄对战不同敌方英雄时,都有稳定的表现
- 要赢下一局比赛,agent需要进行规划、攻击、防御、连招等很多方面的动作决策,同时在部分可观测的环境中考虑对手的状态和行为
a——王者1V1(墨家机关道)地图
b——不同敌方英雄的泛化能力(比如敌方是貂蝉和干将)
c——不同己方英雄的泛化能力(比如我方是貂蝉和干将)
- 描述了观测、动作、奖励
- 复杂的观测和动作被定义为低维的特征
- 定义了多种奖励
- 提供了开源的基于python的接口
- 简单&标准的API,来使得王者荣耀上的RL简单直接
- AI Arena Competition (tencent.com)
- tencent-ailab/hok_env (github.com)
2 开悟游戏环境
2.1 游戏目标
- agent最基本的目标就是摧毁敌方水晶,同时己方水晶完好
- 游戏开始后控制英雄,通过击杀敌对单位、摧毁敌方防御塔获得金币和经验
- 目前有的英雄是红框里的这些(看起来有点年头了,云中赛年的暃、桑启、戈雅、海月都没有233)
- 目前只实现了20个英雄,所以一共有20*20=400种task
2.2 agent
2.2.1 observation
- 对于不同英雄来说,观测空间应该是一样的
- ——>这样才可能在不同任务之间进行泛化
- 观测空间主要由五块组成
- (露娜应该是普攻接月光标记、鲁班是普攻接扫射,为啥橘子需要9个状态。。。)
2.2.2 动作空间
- 也是所有英雄一致
- 摁哪个按钮
- 以谁为目标
- 怎么执行这个动作(释放动作/移动的方位)
2.2.3 奖励
2.2.4 episode dynamics
- 在开悟中,每133ms进行一个动作
- ——>匹配顶层业余玩家的水平
- 游戏局中的限制有状态转换规则限制(比如防御塔不掉,水晶不会受伤害)
3 比较对象
开悟和不同类型的agent进行比赛
- 一个决策树AI(BT)
- 匹配黄金段位水准
- 训练的agent
4 validation
在接下来的实验中,购买的装备数,学习的技能都是一样的(重点关注agent比赛中的技巧)
4.1 baseline
使用了PPO和APE-X DQN
使用和原始论文一致的超参数和配置
4.2 在不同资源上的可行性
(貂蝉内战)
通过实验证明,CPU数量(非GPU数量)是决定战胜BT所需时间的因素
CPU核越多,所需时间越少
4.3 不同模型的表现
(貂蝉内战)
4.4 和BT的比较
PPO VS BT
5 对战RL的泛化能力挑战
随着双方英雄的不同,环境也随即发生改变,这里开展了两个实验来说明强化学习迁移性的挑战。
5.1 不同对手之间的迁移能力
- 红色:用貂蝉内战进行训练,用貂蝉和20个英雄对战进行测试
- 绿色:multi-task,用貂蝉和貂蝉/火舞/露娜/干将/钟馗的对战进行训练,用貂蝉和20个英雄对战进行测试
- 蓝色:丛五个模型中蒸馏,得到student network,用策略来控制貂蝉和20个英雄对战进行测试
5.2 不同玩家控制英雄之间的迁移能力
5.3 不同等级的模型(用于评估)
不难发现,在5.1和5.2中,各种方法下,打婉儿、老虎、鲁班的胜率都是0,这不利于评价和衡量模型
——>这里提供了不同等级的trained agent
以上是关于论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning的主要内容,如果未能解决你的问题,请参考以下文章
POJ2699 The Maximum Number of Strong Kings
POJ 2699 The Maximum Number of Strong Kings Description
poj2699 The Maximum Number of Strong Kings