在游戏世界组建一支AI团队，超参数的多智能体「大乱斗」开赛

Posted 2022-04-22 Alex_996

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了在游戏世界组建一支AI团队，超参数的多智能体「大乱斗」开赛相关的知识，希望对你有一定的参考价值。

原标题：在游戏世界组建一支AI团队，超参数的多智能体「大乱斗」开赛

当 AI 智能体不再满足「与人斗其乐无穷」，它的能力极限在哪里呢？

今日，由超参数科技发起，联合学界麻省理工学院、清华大学深圳国际研究生院，以及知名数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」正式启动。

过去数年，随着神经网络、基于强化学习的自我博弈、多智能体学习和模仿学习等通用 ML 技术的突飞猛进，AI 智能体在多类型游戏中宣示着它们对人类愈来愈强的优势。同时，人工智能研究者不再满足于 AI 智能体击败人类了。为了探索 AI 智能体的能力极限，它们之间的合作竞争逐渐吸引了研究机构的兴趣。

在程序生成的大规模地图上举办海量 AI 团队生存挑战赛

2019 年 3 月，OpenAI 开发了一个面向强化学习的大规模多智能体游戏环境 Neural MMO，作者 Joseph Suarez 现为 MIT EECS 的博士生。在这个虚拟游戏世界中，对战方不再是智能体和人类玩家，而是智能体之间的「乱斗」。通过借鉴经典大型多人在线角色扮演游戏（MMORPG ），Neural MMO 构建了一个非常考验决策能力的游戏环境，观察其中上百个 AI 智能体如何为达成高级任务目标展开行动并做出决策。

多个 AI 智能体在行动中。来源：OpenAI

从学术角度来讲，Neural MMO 让探索海量 AI 的行动和决策能力有了一个公平较量的平台，它将强化学习、多任务学习和模型鲁棒性等基础、抽象但重要的研究话题综合起来，并提供了具象的评测标准，可谓是绝佳的 AI 训练实验场，对促进通用人工智能的研究非常有帮助。

作为一家专注于 AI 领域前沿探索的科技公司，超参数科技曾提出 L1-L4 的技术路径，并致力于通过此路径来打造极致的 AI bot。根据该公司的构想，L3 阶段重点发展海量相互影响的 AI Bot，即 AI 有 AI 的朋友或是彼此之间形成网络，这与 Neural MMO 多智能体对战游戏环境完美契合。

但两者的渊源不仅限于此。2021 年，AIcrowd 联合 MIT 举办了首届 Neural MMO Challenge（大规模多智能体环境中的鲁棒性和团队协作），吸引了业内人士的关注和参与，超参数科技的实习生在此崭露头角，以遥遥领先于第二名的 2010 分拔得头筹。

此次，二者再度同框。由超参数科技领衔发起「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」以「寻找未来开放大世界的最强 AI 团队」为赛事主题，通过在 Neural MMO 的大规模环境中进行探索、搜寻和战斗，比其他参赛者获得更高的成就。本届比赛设置了新的比赛规则，评估智能体面对新地图和不同对手的策略鲁棒性，并在 AI 团队中引入了合作和角色分工，丰富了比赛内容，增强了趣味性。

IJCAI 2022 - Neural MMO 海量 AI 团队生存挑战赛介绍

全新比赛规则和任务：AI 团队合作展开竞逐

在 IJCAI 2022-NMMO 挑战赛中，每局对战有 128 个智能体，分成 16 只队伍。每个参赛者控制其中的一只小分队，即 8 个智能体的行为。这些智能体小分队将在 128x128 的地图上进行自由对抗，比赛持续时间为 1024 步，完成 4 项任务成就。

参赛者需要通过定义智能体在 Neural MMO 环境中的决策方式，选择使用基于规则、基于神经网络或者两者混合的方法来整合所有信息去采取相应的行动。

在实际行动中，各方智能体在环境中探索、觅食、战斗和升级装备，并根据这些技能的等级计算分数，团队的得分由某一项最高的个体得分决定。赛事方由此提醒，让不同的智能体执行不同的角色任务可能更有利于获胜。

Neural MMO 是完全开源的，包括两种 Baseline 和其他相关代码。主办方提供了一个含有提交范例、本地评估和调试工具的新手教程。新手教程中的文档将会指导参赛者安装依赖和环境设置，按照教程可以在数十分钟内完成第一次提交。

PvE+PvP 环节，双重评估智能体的能力

线上评估时，除了环境设定之外，参赛者可以做必要的修改，引入自己对游戏的理解，进行奖励信号的设计等，从而设计基于规则或基于强化学习的智能体。新手教程中包含在评估中需要使用的配置文件，线上评估时会使用不同的随机数种子。

每个参赛团队每天的提交上限为 3 次（以成功的提交计算）。

本届比赛将竞赛和游戏进行了结合，让参赛者有玩家般的竞技体验。主办方设计了两大赛道。

首先是环境不变性较高的 PvE 赛道。PvE 设定中含有三个阶段（Stage），每个阶段的内置 AI 难度会有所不同。Stage 1 到 Stage 3 难度进阶，参赛者在比赛过程中不断优化算法和智能体，由此完成一步一步升级打怪。

Stage 1：参赛者提交的智能体会与 Baseline 进行对抗。这个 Baseline 是开源的，因而参赛者可以在训练过程中访问评估环境。参赛者的目标是在 Stage 1 的内置 AI 环境中获得比竞争者更高的得分。Stage 1 的设计，其目的在于为新参赛者提供更为友好的环境，帮助他们较快地熟悉挑战赛；
Stage 2/3：此阶段将使用超参数科技训练的两个不同级别的神经网络作为对手进行智能体评估。Stage 2 和 Stage 3 的神经网络在赛中不会开源。从 Stage 1 到 Stage 3，内置 AI 的强度将不断增加。

与此同时，为了让比赛更刺激、更有趣味性，本届比赛也为不同智能体团队设计了大乱斗 PvP 环节。在 PvE 环节中取得好成绩的智能体，并不代表在与其他选手的智能乱斗中也能胜出，这需要考验算法的鲁棒性。

根据比赛规则，在 Stage 1 的内置 AI 环境中获得 25 成就分的智能体，将拥有自动参与 PvP 对战的资格。符合资格的智能体将会与其他参赛者的智能体进行匹配及大乱斗。参赛者的目标是比其他参赛者获得更多的成就分。主办方将根据匹配及大乱斗的结果来评估 Ture Skill 的技能等级，PvP 的排行榜将根据 True skill 的等级更新。

关于模型计算资源的限制，参赛者可以使用任何资源进行智能体的训练。不过，由于赛事目标并不是针对智能体进行优化或压缩，因而限制相对较宽松。设定计算限制只是为了控制评估成本，而不是限制开发。

对于评估指标，参赛者的智能体将会根据下述任务完成情况，在每场对赛中获得 0-100 的计分。简单（绿色）的任务获得 4 分，普通（橙色）的任务获得 10 分，困难（红色）的任务获得 25 分。完成任务后，各项指标中的分数不会累加，只以最高得分作为积分。各项指标的阈值如下图所示。

在 PvE 中，主办方将以 Top1 胜率和提交时间作为排行指标。其中，获得 Top1 的方式是：在内置的 AI 环境中获得每场比赛的最高分。若胜率相同，模型提交早将会获得更高的排名。成就分则与对战方的强度息息相关，在 PvP 的比赛中，主办方将会根据 True Skill 等级进行排名。

提交将在 6 月 30 日截止。7 月 1 日至 7 月 15 日，主办方将重新进行大量的 PvP 对战以确保排名的准确性，奖励发放以最终排行榜为准。

全方位优化参赛体验，对参赛者更友好

本届比赛改善了工具链支持不够方便、开发者不能很快定位分析问题等，着重优化了参赛者体验，提供了很多简单易上手的工具。

首先，之前的 Baseline 是基于 RLlib（工业级强化学习开源库），它是一个高度封装、对新手不太友好的框架。本届比赛提供了基于 TorchBeast 的框架，参赛者的熟悉成本和修改成本都很低。

其次，在之前与环境交互的过程中，参赛者需要阅读很多源码。这次，主办方把环境封装地更好了，所有需要与环境交互的 API 都有很清晰的函数定义，节省了参赛者的大量时间成本。环境文档也得到了完善，提供了环境的教程文档、动作空间、观测空间、本地测试和提交的流程，每一步都有详细的介绍。

比赛奖励：2 万美金奖金池以及丰富的学术荣誉奖 & 趣味奖

为了提高参赛者的积极性，本届比赛设立了价值 20000 美金的奖金池，第一名最高可获得 7000 美金。此外，主办方还设立了非常多有趣的奖项，比如 “酸脚（Jio）奖”。

PvE 排行榜及奖励

PvE 环节设有捷足先登奖 / Stage（Pioneer Award / Stage）：授予在每个内置 AI 环境的 Stage 中首个获得 1.0 Top1 Ratio 的参赛者。奖项细节如下：

捷足先登奖总奖金为 2000 美元；
首个到达每个 Stage（暂定 3 个 Stage）的参赛者将分别获得 300、700 和 1000 美元（根据 Stage 而变化）；
每个团队只能获得一个捷足先登奖（当一个团队获得两个或以上捷足先登奖时，将默认授予最高金额的捷足先登奖）。

首当其冲奖（Sprint Award）：每两周，在当前最高 Stage 的 PvE 排行榜的前三名将获得特制证书。

PvP 排行榜及奖励

主奖池（Main Prize Distribution）：在比赛结束后，PvP 排行榜前 16 的参赛团队将获得奖金，前 64 的参赛团队将获得特制证书。

横扫千军奖（PvP Aficionado）：智能体在击败（ killing）的单个评价指标中，获得第一名的团队将获得特制证书及奖励。

日行千里奖（Sore Feet:）：智能体在探索（exploration）的单个评价指标中，获得第一名的团队将获得特制证书及奖励。

除了现金奖励之外，主办方将在比赛结束时邀请每个赛道的前三名团队共同撰写一份总结文稿，并根据内容斟酌提供学术荣誉奖，例如使用计算资源最少奖或使用最少的人工知识奖。学术荣誉奖的获得者将以共同作者身份一同被邀请撰写 CompetitionReport。

未来三个月，把握赛事阶段与关键节点

千万牢记以下赛程时间安排：

4 月 14 日：新手教程上线、PvE 以及提交系统开放
5 月 5 日：PvP 对战开放
6 月 23 日：组队开放及比赛注册截止
6 月 30 日：最终提交截止
7 月 1 日 - 7 月 15 日：PvP 的最终评估
7 月 16 日：最终结果发布

需要注意：赛事组织者保留在必要时更新比赛时间表的权利。所有截止日期均为太平洋标准时间的晚上 11:59（除非有特殊说明）。

用极致的 AI Bot 推动 AI 在游戏领域的应用

在游戏领域，NPC 如何像人一样聪明一直以来都是主要诉求之一。早期的 NPC 经常被玩家调侃为「人工智障」，因为它们的行为范式很容易被摸索到。算法和资源投入与 AI 实际带来的产出比，在游戏未投入市场之前难以估计。因此，「AI」尚未在游戏中真正普及。

不过最近几年，伴随着强化学习与游戏的完美契合，AI + 游戏成为新兴赛道，AI 逐渐在游戏中得到应用，比如以击败人类玩家为目标的 OpenAI Five（Dota 2）和 AlphaStar（星际争霸 2）。以 AI 为主角的游戏也开始出现，比如国内开源决策智能平台 OpenDILab 开发了一款以 AI 智能体为主角的竞技游戏环境 Go-Bigger，AI 世界有了自己的《球球大作战》。

但应看到，AI 智能体在游戏中的参与形式和应用场景不够丰富，自身能力仍需进一步增强。

因此，举办 Neural MMO 生存挑战赛，让多方智能体在一个独属于 AI 的游戏环境中寻找资源（如食物、水），并与其他智能体战斗（如近战、远攻和法攻），在交互中不断自我学习和进化，增强自身能力。

有了更强的 AI 智能体，它们能够以强化版 NPC 的角色加入到更多开放世界类游戏中，比如超参数此前开发的玩转「吃鸡」游戏的 3D 生存类 AI“猎户座 α” 以及其他 AI Bot。这些高智商 AI 智能体不仅对于玩家来说很有吸引力，对于游戏开发者来说，部署海量 AI 测试游戏 bug、帮助制作游戏关卡等都是极好的。

最后，如果你想在游戏世界「驯化」一个属于自己的AI智能体团队，体验升级打怪的乐趣，快来报名参赛吧！了解详细赛事信息，可前往赛事官网（点击「阅读原文」可直达）：

https://www.aicrowd.com/challenges/ijcai-2022-the-neural-mmo-challenge

参考链接：

https://arxiv.org/abs/1903.00784

https://openai.com/blog/neural-mmo/

https://www.jiqizhixin.com/articles/2022-01-04-11

https://mp.weixin.qq.com/s/tC1XKVl-slYAwbvDpHttcw

https://posts.careerengine.us/p/61aefa6d78dfb421ae727ba4

https://www.aicrowd.com/challenges/the-neural-mmo-challenge

以上是关于在游戏世界组建一支AI团队，超参数的多智能体「大乱斗」开赛的主要内容，如果未能解决你的问题，请参考以下文章

Voyager：AI智能体自主写代码独霸我的世界，完胜AutoGPT

如何打造一支优秀的技术团队

利用AI强化学习训练50级比卡超单挑70级超梦！