基于深度强化学习的局内战斗自动化测试探索

Posted xingzheai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于深度强化学习的局内战斗自动化测试探索相关的知识,希望对你有一定的参考价值。

游戏项目研发时,期望搭建自动化测试平台,发现局内bug,避免重复劳动、提高测试效率以及避免人为的操作错误。其中环境要求使用项目需要使用Airtest、poco对接强化学习的服务器,实现Airtest将状态信息发送给服务器,服务器返回下一步的决策。

1. 前期准备工作

了解Airtest、poco、强化学习agent的决策方式。

1.1 Airtest介绍

Airtest基于图像识别的自动化测试框架。这个框架核心不在实现方式和技术上,而是理念!这个框架的理念借用是MIT(麻省理工)研究院的成果 Sikuli ,他们构思了一种全新的UI测试模式,基于图像识别控件而不是具体内存里的控件对象。

Airtest特点

① 支持基于图像识别的可程式化测试工具
② 跨平台
③ 生成测试报告
④ 支持poco等SDK内嵌,提高UI识别精度

Airtest界面(包含点击、滑动、判断、截屏等接口)

技术图片

Airtest局限性

然而在实际工程中,图像不会一成不变,我们需要捕获项目的动态节点,针对动态节点进行点击、移动等操作(比如自走棋商店买旗子的位置节点)

我们需要另一个工具Poco。

技术图片

1.2 Poco介绍

目前Poco只支持原生androidios的接口调用,其他平台均需要接入对应平台的sdk

技术图片

Poco获取UI树的方式

从根节点开始向下遍历子节点

在unity项目中,需要在unity中安装Poco的SDK

Poco调用方法

技术图片

Poco调用举例

poco = UnityPoco()
poco(‘btn_start‘).click()

① Airtest通过接口调用unity中的pocosdk,SDK对整个ui树进行遍历,将dump后的json信息传回Airtest。

② Airtest在得到的UI树中找到‘btn_start’的元素位置信息,通过adb进行点击操作。

1.3 强化学习的简述

技术图片

Environment 通常利用马尔可夫过程来描述,Agent 通过采取某种 Policy 来产生Action,和 Environment 交互,产生一个 Reward。之后 Agent 根据 Reward 来调整优化当前的 Policy。

技术图片

用上图更形象的解释,state是环境的一个状态,observation是Agent观察到的环境状态,这里observation和state是一个意思。首先Agent观察到环境的一个状态,比如是一杯水,然后Agent采取了一个行为,这个行为是Agent把杯子中的水给打碎了,这样环境的的状态已经发生了变化,然后系统会对这个行为打一个分数,来告诉Agent这样的行为是否正确,然后根据新变化的环境状态,Agent再采取进一步的行为。Agent所追求的目标就是让Reward尽量的大。

2. 项目执行过程:

2.1 背景

通过将训练好的一个Agent部署到服务器上,其他人通过访问服务器,流程如下:

① 测试端收集信息->测试端将信息转成约定好的state格式->测试端将state发给服务器->服务器返回一个Agent的决策->测试端收到信息执行决策->

② 测试端收集信息(新一轮循环的开始)...

在这个过程中,测试端收集信息耗时最为严重,针对项目需求决定对其部分进行优化。

2.2 具体问题

① poco首次调用dump接口时会启动大量mincap等诸多可执行文件,导致7秒左右的延迟。

② Airtest操作遇到的延迟过于严重,导致自走棋每回合可操作时间30秒内,只能进行4-5个动作。

然而本地训练的agent后期每回合操作数能达到16个左右,导致后期agent动作不能完全在客户端上做完。

2.3 解决方案

① 提前加载poco的click事件

② 定位到dump耗时严重,决定从sdk的接口出发,减少dump出的json文件大小。

a. 在unity的接口中,加入tagfilter、blacklist、propertylist参数,来控制json的文件大小。
其中tagfilter用于针对指定tag的unitygameobject的筛选,可以去除除UI和Default以外的所有物体。
blacklist用于针对unitygameobject名字的筛选,能提高dump效率50%
propertylist用于减少单个unitygameobject的参数写入,默认单个物体有10多个参数,筛选后可以省下6个左右的参数。可提高dump效率33%

b. 在python的接口使用对应接口参数

该方法完美解决了操作延迟的问题,目前客户端单回合30秒可以完成20个左右的动作。

2.4 具体步骤:

  • layerfilter 在自走棋项目中,有13个layer。只对tag为UI和Default的UGO进行递归写入子节点信息,剔除掉场景、特效等层级,可以大幅减少开销。

技术图片

  • namefilter 并非所有UI节点信息都是自动化测试需要获得的必要数据。所以在递归查询子节点时,遇到写入黑名单的UGO的名字时,可以减少约50%的时间开销。

主要修改C#的poco中AbstractDumper中的dumpHierarchyImpl接口,具体如图:

private Dictionary<string, object> dumpHierarchyImpl (AbstractNode node, bool onlyVisibleNode, Dictionary<string, object> extrapar)
{
    if (node == null) 
    {
        return null;
    }
    Dictionary<string, object> payload = new Dictionary<string, object>();
    if (extrapar != null && extrapar.ContainsKey("param4") && extrapar["param4"] != null)
    {
        payload = node.enumerateAttrs(extrapar["param4"].ToString());
    }
    else
    {
        payload = node.enumerateAttrs(null);
    }
    Dictionary<string, object> result = new Dictionary<string, object> ();
    string name = (string)node.getAttr ("name");

    result.Add ("name", name);
    result.Add ("payload", payload);
    List<object> children = new List<object>();
    if (extrapar!= null)
    {
        if (extrapar.ContainsKey("param3") && extrapar["param3"] != null)
        {
            requirelayer = extrapar["param3"].ToString().Split(‘|‘).ToList();
            string layer = (string)node.getAttr("layer");
            if (!requirelayer.Contains(layer))
            {
                //Debug.LogError("--dumpHierarchyImpl layer is not contains");
                return result;
            }
        }
        if (extrapar.ContainsKey("param2") && extrapar["param2"] != null)
        {
            try
            {
                filterlist.Clear();
                string str = extrapar["param2"].ToString();
                filterlist = str.Split(‘|‘).ToList();
            }
            catch
            {
                Debug.LogError("~~~dumpHierarchy Implextrapar param2 error");
            }

            if (filterlist.Contains(name))
            {
                return result;
            }
        }
    }

    foreach (AbstractNode child in node.getChildren()) 
    {
        if (!onlyVisibleNode || (bool)child.getAttr ("visible")) 
        {
         children.Add (dumpHierarchyImpl (child, onlyVisibleNode, extrapar));
        }
    }
    if (children.Count > 0) 
    {
        result.Add ("children", children);
    }
    return result;
  }
  • propertyfilter json默认dump出的一个节点参数包含:

name、payload、type、visible、pos、size、scale、anchorPoint、zOrders、clickable、components、_ilayer、layer、_instanceId等参数。我们剔除掉了
visible|scale|anchorPoint|clickable|components|_ilayer|layer|_instanceId实际上用不上的参数,大大减少的dump出来json的文件大小,可以减少约33%的时间开销。

主要修改C#的poco中UnityNode中的enumerateAttrs、GetPayload接口,具体如下:

  private Dictionary<string, object> GetPayload(string blackList)
  {
        Dictionary<string, object> all =  new Dictionary<string, object>() {
            { "name", gameObject.name },
            { "type", GuessObjectTypeFromComponentNames (components) },
            { "visible", GameObjectVisible (renderer, components) },
            { "pos", GameObjectPosInScreen (objectPos, renderer, rectTransform, rect) },
            { "rawpos", GameObjectVec3Pos (objectRawPos) },
            { "rawrectpos", GameObjectVec3Pos (objectRectRawPos) },
            { "size", GameObjectSizeInScreen (rect, rectTransform) },
            { "scale", new List<float> (){ 1.0f, 1.0f } },
            { "anchorPoint", GameObjectAnchorInScreen (renderer, rect, objectPos) },
            { "zOrders", GameObjectzOrders () },
            { "clickable", GameObjectClickable (components) },
            { "text", GameObjectText () },
            { "components", components },
            { "texture", GetImageSourceTexture () },
            { "tag", GameObjectTag () },
            { "_ilayer", GameObjectLayer() },
            { "layer", GameObjectLayerName() },
            { "_instanceId", gameObject.GetInstanceID () },
        };
        Dictionary<string, object> payload = new Dictionary<string, object>();
        if (!string.IsNullOrEmpty(blackList))
        {
            List<string> black_list = blackList.Split(‘|‘).ToList();
            foreach(KeyValuePair<string, object> it in all)
            {
                if(black_list.Contains(it.Key))
                {
                    continue;
                }
                payload.Add(it.Key,it.Value);
            }
        }
        else
        {
            payload = all;
        }

        return payload;
  }

PS:

我们是行者AI,我们在“AI+游戏”中不断前行。

如果你也对游戏感兴趣,对AI充满好奇,那就快来加入我们(hr@xingzhe.ai)。








以上是关于基于深度强化学习的局内战斗自动化测试探索的主要内容,如果未能解决你的问题,请参考以下文章

论文阅读|《基于深度强化学习的紧急订单生产控制方法研究》

《深度强化学习——边做边学》第二章 在走迷宫任务中随机探索 (修改后的代码)

深度强化学习-DDPG算法原理与代码

强化学习DQN episode是什么

强化学习DQN episode是什么

堆叠抓取+深度学习基于深度学习+PPO深度强化学习的堆叠物体抓取算法的MATLAB仿真