数据挖掘在游戏行业的应用

Posted 大数据架构技术

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘在游戏行业的应用相关的知识,希望对你有一定的参考价值。

数据挖掘在游戏行业的应用


提到游戏,大家可能会觉得这并不是多么高大上的行业,甚至有的人会觉得这个行业属于比较不高尚的行业。但是,游戏其实是精神文明建设的一个有机组成部分。在社会主义现代化过程中,物质文明建设和精神文明建设两手抓,两手都要硬。而且最近我在网上看到一个消息(很抱歉出处已不可考),在全世界的手机游戏里,中国的公司收入已经占到了半壁江山。这说明我们不仅没有关起门来搞闭门造车,还帮助全世界人民一起搞精神文明建设,也是符合一带一路战略发展方向的。


上面闲扯这么多主要是想要说大家不要对游戏行业有什么偏见。那么下面言归正传,就给大家介绍一下(广义上的)数据挖掘在游戏行业的应用。本文的内容主要分成四个部分:A/B testing,用户生命周期付费预测和流失预测,实时广告竞价和推荐系统。


A/B testing

在互联网行业中,关于用户体验(UX)改进的一个重要方法就是A/B testing。对于游戏行业来说,这也不例外。简单来说,A/B testing就是假设检验:提出一个改进方案,测试它是否能够提升某个感兴趣的指标;把用户随机分成两组进入原有方案和改进方案;当两组人数达到一定要求后,停止试验,分析结果;如果结果表示改进方案确实显著性的提升了测试指标,就采用改进方案,反之就保留原有方案。


游戏行业里,A/B tesing的应用也比较广泛。比如在休闲类型游戏里,它主要可以用来进行游戏难度调节。一个著名的案例就是King’s公司出品的Candy Crush saga65关(level 65)。当时King’s的数据团队花了很多时间,做过很复杂的A/B testing,不断优化细节,最终决定降低这一关难度,并取得了很好的效果。


但是,在游戏行业里,不是所有的UX问题都可以通过A/B testing解决。比如对于一些Massively Multiplayer Online GameMMOG)来说,要上线一个大版本,或者一套新的游戏玩法,这时候不可能做A/B tesing,否则会造成游戏公平性丢失。此时,能够获得的只有观察性数据(observational data),那么问题就是怎么样从这些观察性数据中做出因果推断。机器学习研究目前也正把更多的精力放到了这个问题上。


用户生命周期付费和流失预测

用户生命周期付费(lifetime value, or LTV)和用户流失预测(churn prediction)在任何一个行业都是很重要的问题。最早的研究是在商学院或者经济学院教授里进行的。但是随着互联网行业的壮大发展,越来越多的互联网公司也把注意力集中这个问题上面了。在游戏行业里,随着Free to playF2P)这一模式的兴起,这两个问题对于公司的健康运营和发展都有至关重要的影响。


具体来说,LTV预测对于广告买量(下一节会有更详细的介绍)很重要,因为LTV给广告竞价提供了一个上限。如果LTV预测过高的话,会导致过于乐观的竞价,从而造成损失。而如果LTV预测过低的话,会导致竞价过于保守,从而无法引入流量。同时,LTV预测准确的话,可以帮助我们给玩家更个性化的推荐,提高他们的游戏体验。


对于用户流失分析来说,它的重要性体现在两点:挽留一个老玩家比获取一个新玩家的成本要低;用户留存对于一个游戏成败来说是很重要的,一个简单的评判游戏质量的标准就是看每天新玩家和之前留存的老玩家的比例。

关于这两个问题,使用到的方法基本上就是预测分析和机器学习(其实两者很相似,并没有太大区别)。常见的XGBoost,随机森林等方法都是可以考虑的。目前深度学习方法也开始得到应用。但一个比较大的问题是有很大一部分玩家都不付费,因此数据分布并不均衡,需要想办法解决这个问题。


实时广告竞价 

上面这幅图是Facebook公司近几年的收入来源,明显可以看到广告收入是他们的一个最重要的组成。而这些钱从哪里来呢,就是从需要打广告的广告主来。游戏行业,扮演了极为重要的广告主的身份。


目前常见的广告投放方式是实时竞价方式,简单来说就是对于一个广告位点,有很多广告主通过竞价拍卖的方式来购买。出价最高的广告主就会得到那个广告位点,但是他并不是按照他的出价,而是第二高的那个出价来结算。这就是第二高价(second price)策略。


要想做好实时广告竞价,有几个问题要得到很好的解决。第一个就是前面提到的LTV预测问题,这个决定了出价的上限,这里就不再赘述。第二个就是对于其他广告主竞价估计,这个可以说是决定了我们出价的下限。但根据历史数据来估计的话,我们只能对winning price有直接观察,当我们竞价失败的时候,并不知道其他广告主的出价情况。第三就是当我们优化广告的时候,检验效果只能在我们赢得的广告的winning price这个区间的广告受众上验证,并不一定对于别的价格区间的受众也适用。第四,往往我们的资源是有限的,要同时投入到多个广告位的竞价中,所以这又有点类似金融里面的portfolio management和统计套利。

推荐系统

推荐系统对于大家来说肯定一点都不陌生,淘宝,天猫,京东,亚马逊等电商都有这套系统。对于他们来说,推荐系统的好坏直接决定了他们营收。对于游戏来说,也是一样的。但是游戏行业有一些自己的特点。


在传统推荐系统里,物品的数量是很多的。对于用户来说,好的推荐是能够推荐他们没有见过,但是又会引起他们兴趣的物品。但在游戏里,物品种类很少,基本上每个玩家都见过了。这个时候好的推荐就是适合玩家这个阶段的需求以及他们的兴趣的物品。


此外,在电商的传统推荐系统中,用户通常是没有办法通过购买以外的方法来获得物品的。但在游戏中,很多物品玩家可以通过玩游戏来获得,因此他们的兴趣和需求在比较短的时间里可能就会发生很大的变化。


结语

到此,本文就结束了,主要是提出了数据挖掘在游戏行业面对的问题。希望能够给大家带来一点基本的了解。限于笔者水平,难免有各种错误和遗漏,还请大家不吝赐教。


以上是关于数据挖掘在游戏行业的应用的主要内容,如果未能解决你的问题,请参考以下文章

区块链游戏开发

TcaplusDB君 | 行业新闻汇编(5月20日)

TcaplusDB君 · 行业新闻汇编(5月20日)

TcaplusDB君 | 行业新闻汇编(5月20日)

TcaplusDB君 · 行业新闻汇编(5月20日)

TcaplusDB君 · 行业新闻汇编(7月20日)