高人上课:游戏靠数据驱动,如何避免掉进数据陷阱?

【GameLook专稿,转载请注明出处】

GameLook报道/在竞争越来越激烈的游戏市场,数据分析能力对于一款产品的重要性越来越高,而且同行们接触到的数据也越来越多。那么,到底该怎样使用数据才是正确的呢?Kongregate公司CEO兼联合创始人Emily Greer曾在此前的GDC大会上,根据该公司十多年的经验做了详细的讲解。

以下是GameLook听译的详细内容:

让人又爱又恨的数据

数据很出色,因为它是科学、进步,也是科技巨头谷歌、亚马逊、Facebook等公司科学方法的顶梁柱。

但我们今天要说的是,数据也是一团糟。数据和其他工具一样,它有用途,也可能被滥用。Kongregate经常与大量的数据打交道,使用数据既有过成功,也有过失败,而且这两种情况都发生过很多次。

我是Kongregate公司联合创始人兼CEO,公司最初是为网页游戏打造的一个开放式平台,过去十多年来,我们每个月平均都有3000款游戏,所以我们已经积累了10.2万款游戏,这意味着大量的数据。

2013年开始,我们开始做第三方手游发行,你们可能听过我们发行的一些游戏,尤其是《冒险资本家》以及《Animation Throwdown》,我们发布了40多款手游,但2017年开始,也在Steam、主机等平台发行游戏,也开始做付费游戏。2018年夏季,还发行了PC平台游戏《Kartridge》。

还有一个想聊的是,我是怎么走到这一步的?我大学的专业不是经济学、不是数据分析也不是数学,实际上我的专业是俄语以及东欧研究,虽然可以了解很多有趣的东西,但在工作市场,这些东西或许是最没用的。

所以我就做了一些其他事,尝试了书籍发行之后发现我并不是很喜欢,随后又做了分类数据,我喜欢测试、看数据,然后从中得出一些故事。当时,由于我很热爱数据,所以就自学了SQL,因为不愿意等待IT人员给我提供数据。

随后共同创办了Kongregate公司,本以为会做一些不同的事情,但没想到我接触的是更多的数据,这也是我今天要说的第一点:不要被数据吓到。要做好数据分析,你不要很高的统计学学历;通常情况下,如果你有很高的学历,往往容易搞砸。我并不是说有学历不好,只不过,学历并不是做数据分析必不可少的东西。

我要说的第二点是,要有点偏执。因为在数据看似坚固的表面之下,实际上是一团乱麻。

有时候,问题是显而易见的。比如我们最开始做手游发行的时候,当时是一款跑酷游戏,当时的平均消费是500美元,很明显,这款游戏是有问题的,它几乎没有多少用户。大多数时候,数据是固定的,但你要想看出问题,就必须从某个很小的地方入手。

即使你的数据看起来很好,这也可能是具有误导性的。有时候,你从一个方向看数据,得到的结果是唯一、直接的,但换一个角度,就会发现完全不一样的问题。

这里列举一个Kongregate.com上的数据:这是两款同品类游戏的每日ARPPU数据变化趋势,它们有着同样的次日留存、七日留存(游戏1的七日留存略高一些);它们的终身付费用户也很类似(游戏2稍微高一些),它们的平均每付费用户消费额也很接近。

那么,平均每用户付费(ARPU)的计算就应该是付费玩家比例xARPPU。所以大概很多人都认为它们的ARPU值也应该差不多,但很明显并非如此。

数据显示,游戏1的ARPU达到2.27美元,而游戏2只有0.84美元。原因是,人们在游戏1里的体验时间比游戏2长很多,每个付费用户的交易次数也更多,30日留存更高,终身ARPPU也高很多。如果只是看每日数据,你根本不知道这些游戏到底表现怎么样。

如何看待游戏数据?

你可以把自己看作是一名侦探。目击者可能会说谎、感到困惑,你不能相信任何一个证据,必须不断的把它们与其他证据对比来验证你的发现。

所以,我们经常对真相进行三角拆分,我们一直都要把所有数据放在一起对比。在Kongregate,我们有来自SDK的客户数据以及Adjust广告平台的数据对比,,还要对比服务器数据、平台数据,然后与过去多年打造的基本标准进行对比。

因为样本的差异会导致不同数据来源的结果不一样。有些情况下,5%左右的误差或许是可以被容忍的,但你需要知道会带来不同的结果。我们有一个最高最低值,任何高于或者低于标准的数据我们都会进一步核实,确保它们是正确的。

你还要把自己当作CSI(犯罪现场调查员),你的目标是得到玩家行为的3D视角,并了解他们在你的游戏里到底是怎样使用的,因为游戏是一个复杂的、基于时间的系统,扁平视角是不足以看出问题的。

我觉得游戏数据的挖掘应该像天文学的宇宙建模那样,大学的时候,我最喜欢的课程之一是天文学,你需要从不同的地点观测,得到不同的视野,然后把这些方式观测到的东西结合起来,做成3D版本的宇宙地图,不过,如果是2000年前,人类还以为太阳围绕地球转,与如今的差别很大。

如何避免数据失误?

接下来我想说一些数据方面的常见失误,我会通过一些案例的形式展示它们是怎么来的,该如何避免。

首先要说的就是用户结构。通常来说,我们往往倾向于把自己的用户群想像成某一类人,但实际上,他们来自不同的渠道、不同地域,投入的游戏时间、玩游戏的设备也不一样。他们之间的混合方式对我们的KPI有很大的影响。

通常来说,当一款游戏KPI变化的时候,用户群的组成结构就发生了变化,游戏也随之而变化。

这是我们一款游戏的留存数据:

你们可以看到它非常稳定,但一开始的时候,次日留存率有很高的点,这是因为最初的几天,我们在美国iOS频繁买量,把最高价值的用户带到了游戏里。随后,你们可以看到美国区的留存数据变化节奏基本一致。

在30日留存阶段,可以看到一个明显的动荡,这是因为我们获得了Google Play推荐,所以有一个很高的增长点,不过,在很多国家和地区,我们没有做本地化,或者本地化做的不好,因此很快就出现了用户留存的下滑。还有一部分原因是低价值用户,到了一定时间段之后,他们必然离开。

其次是用户年龄(接触游戏的时间)

这是我们另一款游戏的每日ARPDAU数据,我们看到圣诞节之后,游戏数据出现了巨大的下滑,到一月份几乎下滑了50%,随后才缓慢恢复。

看到这个图,可能人们第一时间想到的是,这款游戏发生了灾难性的事件,人们为什么不付费了呢?可实际情况并不是这样。

我们再看游戏的安装数据,这款游戏当时已经上线2年,而且我们一直都没有怎么买量。但我们在做一些创意,比如加入了一个类似特朗普的角色,他在游戏里不断的敲核弹发射按钮,人们非常喜欢这个创意。这大幅降低了我们的买量成本,安装量也迅速增长。

那么,可能会有人觉得,用户量增长、人均收入下滑,这可能意味着新玩家都是低价值用户。但是,如果按时间拆分来看,就可以看出次日留存并没有那么大的波动,而是一直都在特定区间内变化。

七日留存以及30日留存也是如此,即便是30日之后,ARPDAU的变化也没有那么剧烈,所以,这款游戏的平均收入怎么会突然出现75%的下滑呢?

如果从玩家进入游戏时间来看,这个问题就很容易解释,新用户通常带来的收入占比很低,而当老玩家占比较高的时候,ARPDAU数据就会高很多。所以,即便是后来我们得到的用户质量很高,但反映在同一时间,还是会有区别。

总的来说,我们得到了更多的收入,这是很不错的事情。但这是你需要非常注意的,随着用户游戏时间的增长,他们深度参与变现系统的机会越多,而买量得到的新用户还需要一个过程,随着时间的增长,不断有用户流失,只留下最核心的一部分玩家。

这时候,ARPDAU数字就会增长,有人可能觉得游戏表现不错,但很可能是你没有对游戏做出足够的提高,你的用户结构发生了变化。

另一个需要注意的点是,平均数就只是平均数,有时候平均数据并不代表某一类用户行为

比如我们一款游戏新手教程的完成率,总体来看,只有5%的人没有完成新手教学,但如果按照设备来划分,就会发现完全不同的故事,iPod用户的完成率明显很低,所以我们专门针对iPod做了提高,直到这部分用户的完成率提升至平均水准。

还需要记得的一件事是,玩家们并不都是一样的

就像我之前说的那样,一款游戏会有老用户和新玩家,你做的每个改动,对于新玩家和老玩家的意义都是有很大差别的。

左图是我们一款卡牌游戏的PVP胜率,我们后来增加了先手的优势,但从数据来看,改动之后胜率并没有受到很大影响。可是,当我们把用户胜率按照老玩家和新玩家区分统计之后,会发现新用户的胜率降低了,而老玩家的胜率则明显增长。

所以,有时候整体数据虽然看起来没事,但在它背后,正在发生一些你不愿意看到的事情。

还需要强调样本容量的问题,当你发布一款小众游戏的时候,你得到的样本分析结果或许没有代表性,在Kongregate,每当我拿到数据的时候,都会要求他们给出具体的样本资料。

人们通常会给数据做一些标准,比如常见的变化曲线。但我要说的是,没有什么是按照常见趋势发展的。这在游戏业尤为重要,收入、游戏次数、战斗时间都有变化。

很多时候离群值可以影响整体数据,这是我们一款游戏的用户终身收入数据:

比如游戏里的最高消费者可能贡献数千美元,还有不付费玩家,有些数据只是很小的样本,按照不同维度统计就会有不同的结果,甚至有些付费用户已经流失了。所以在我们的游戏,我最关注的是早期留存和付费转化率,因为与ARPPU相比,这些是更可靠的数据。

我想说的另外一件事是随意挑选

有时候我们会有意做一件事,因为可能是老板需要,或者是其他人的认可。但更多时候,我们是无意的。有时候,我们对数据可能有个人目标,比如留存率应该达到50%才算过关,那么看到51%的留存率,你就不再多想了,但这是个人偏见。

与之相关的是确认偏见,数据分析是要了解用户行为、游戏表现。但有时候,你了解数据的目的可能是为了确认某一个理论,这样你确认了理论之后,这些数据背后的东西就很可能会被忽略。如果是为了验证某个理论去看数据,那么你可能会有意无意之间错过一些东西。

另一件需要注意的事情是数据的可视化,这对我们理解数据有很大的影响力。

这是我们的市场营销团队给出的合作伙伴产品数据图:

由于广告收入很重要,所以我们对每天的用户参与度都很重视。你们可以看到,广告参与用户的比例出现了下滑,团队比较担心,并且在图表上画出了明显的红色箭头,以表明下滑有多严重。

但是,我注意到这个参与度是从40%开始统计的,如果从0%开始统计,我们就会看到这个变化实际上没有那么明显,很可能是用户结构发生了变化。具体的答案我也不知道,但上下图的对比可以让我们看出,对不同阶段、水准的数据分析,也会带来完全不同的结论,你展示数据的方式会影响对其做出的反应。

接下来我要说的是关联性并不是因果关系,之所以如此容易混淆,因为我们人类总喜欢找原因,我们希望不把同样的错误犯两次。

在游戏里,几乎所有东西都和玩家参与度有关,有时候它是有意义的,但通常而言,关联性并不是那么重要。

比较经典的案例可能是,人们都说“使用Facebook的玩家参与度是普通用户的两倍,因此他们的价值更高,所以我们应该鼓励人们使用Facebook登陆”。

这个说法可能是正确的,但更大的可能是,参与度较高的玩家可能更愿意与他们的好友分享游戏体验,并且与他们一起游戏。

A/B测试以及最容易掉入的陷阱

区分关联性和因果关系真正的方式是A/B测试,但它也不是灵丹妙药,因为这样的数据不容易得到。测试需要消耗工程师的时间、人手剧增、复杂度增加,会让用户困惑、用户分化,而且测试越多,这些问题就越严重。

A/B测试的陷阱实际上我在前面已经提到过,比如样本大小、随机挑选、用户结构、确认偏见以及能力分布等等,但真正需要注意的是问题分配。在做测试的时候,确保你测试的目标分别进行。

比如在测试游戏内商店的时候,用户的付费行为可能与你改变商店设计的关系不大,而是因为游戏里的需求发生了变化。

还有一个现象是,你的最高价值的玩家往往是最早出现的,如果只是在某一天做测试,可能会有比较大的偏差,所以应该从更长的时间进行测试,这样参与度没那么高的玩家就会回到游戏里,你得到的样本就会更正常、更能反应真实的玩家现状。

每天的测试样本都可能是不同的,周二玩游戏的人可能周三就不登陆游戏,所以即便是测试新用户,也要有长线测试的结果才更反应真实状况。

另一个需要记住的是下游影响。大量的A/B测试产品都会让你选择特定的某一个KPI进行测试,他们会专门测试某一项数据,然后决定选择哪一个。他们这么做是不想让你获得特定的资源,以避免随机挑选。但是,按照我们的经验,测试的时候能够看到全局影响,然后做决策往往是最好的。

下游影响的一个案例是,我们在测试一个游戏的商店物品时,去掉了一些内购物品,结果也不错,付费转化率增加了9%。但实际上这个结果是有问题的,我们不知不觉移除了高参与度玩家最喜欢的道具,所以付费转化率虽然提高了,但我们的实际收入却降低了11%。

A/B测试当中,你可能会犯的另一个错误就是过早得出结果

在我们的一款游戏测试中,我们给促销物品增加了弹出Flash效果,短期结果来看,ARPU提高了8.4%,ARPPU略微下滑,看起来还是可以接受的。但从长期来看,比如30天内,我们的ARPU下滑了2.3%,ARPPU下降了更多,所以短期结果并不能反映整体影响。

统计差异

这之所以很重要,是因为统计差异,有人可能说,不同测试之间的差异只有5%。但实际上,经过多次测试之后,你得到的数据曲线很接近,就像这张“贝尔曲线”,哪怕是5%的差异,也有可能意味着19%的差别。所以,你需要尽可能多测试,但这代价很高。

这也是我们需要做异常测试的原因。

我们非常关心的数据包括参与度、收入等KPI。比如这张LTV变化图,如果按照A、B两组分别测试,平均LTV相差42%,但如果去掉最高值之间但差异,两者的样本数据相同。

虽然这是个比较小规模的测试,但在大规模测试的时候仍然需要特别留意一些异常数据,它们的出现很容易改变整个测试结果。

解决这个问题的方法就是使用中间值,比如以上两组的平均值相差很多,但中间值都是15。作为分析师,你看到这个平均数和中间值就可以直到,两组数据实际上大体一致,差异之处主要存在于头部数据。

我们再看另一组数据,他们但平均数很接近,但中间值却差了一倍。这意味着测试结果是更好的,因为B组头部数据虽然略微低一些,但中间数据都明显增加。我们还可以根据用户不同时间的消费额度比例来了解到底发生来什么。

现在我想谈谈测试肮脏的秘密,那就是大多数的测试实际上都不能显示重大的改变,这对于开发者来说是令人沮丧的,因为你想要通过测试提高游戏表现,想改变游戏现状。但我们需要记住的是,即便没有显示清晰结果的测试,也仍然是有意义、有趣的。

比较著名的案例是《Crashlands》对于游戏描述做的A/B测试,他们使用谷歌测试对两个版本完全不同的游戏描述进行了测试。

经过了一个月的测试之后,他们发现结果没有任何差异,对于开发者来说,把一个月的时间用在游戏描述的优化上,却没有得到结果,可能是非常失望的。

对我们来说,这种测试实际上是有借鉴意义的,因为这告诉我们,在测试不出差别的地方,往往意味着它们不是那么重要,你可以将注意力放在其他更重要的地方。

但是我们仍要不断做测试,因为即便是同样的方式和地点,仍然可以得出不同的结果。比如我们对游戏icon的测试中,你可以看到在Google Play直升机图标的转化率比拿枪女孩高了92%;但之前在Kongregate网站,我们使用了拿枪女孩的icon,因为它比直升机icon高了47%。

需要记住的另一件事就是,并非所有东西都可以测试。有时候,很多人觉得人们的兴趣可能没有变化,但可能很多人没有意识到的是,游戏也会改变人们的习惯。比如同一个玩家第一天的行为,与4天后或者30天后的行为就不一样。玩家之间也会聊天,所以你更难预测玩家们的兴趣到底是什么。

我很喜欢以列框架的方式表达内容,这是我对测试等级的理解,包括了从重要的事情,到困难的事情。

首先,广告很重要,你使用任何一个广告网络,他们都会让你做A/B测试,即便是同一个广告创意,人们在网站、游戏以及Facebook与它的互动方式也都不一样。

另一个很重要的是转化率,无论是登陆页面还是Steam这样的商店页面,都要进行测试,问题在于,除了安卓之外,其他平台实际上没有特别好的测试工具,因此你需要找到合适的第三方工具进行测试。

上手体验是最简单而且非常重要的测试,通常以新手教学形式体现。第一天的测试实际上很多结果都无法反映长期效果。你真正需要注意的是玩家们体验了多久,与游戏的互动有多深度?最终它反应的是,你的游戏是否有趣。

我们觉得用户在游戏里前几周的行为也很关键,尤其是对游戏内商店、促销、功能解锁等方面的测试,而且往往可以得到有意义的结果。

但是,当你到了游戏后期的时候,测试就会变得比较艰难。尽管游戏后期测试并非不可能,但这时候得出的结果会更复杂,我不建议同行们专注于游戏后期测试。

从我们的经验来看,如果从游戏概念、预制作、制作、测试、发布以及在线运营等阶段来看,游戏数据在创作阶段的意义不大,更多是在优化阶段需要更多地参考。

因为在概念阶段,可能开发者们问最多的就是,我们该做什么?这个决定应该是不同的游戏公司根据自己的情况而决定,并单纯的数据可以左右。

作为一个数据驱动型的公司,我们曾对数据融入创意做了大量测试。我们幸运的在卡牌游戏方面有一些成功产品,最开始是2013年的重度科幻题材游戏《Tyrant Unleashed》,它的长线留存和变现都很好,但买量成本也很贵,每次安装成本达到7美元。

我们希望做更大众化的游戏,所以研发团队(芝加哥团队)用同样的游戏做了另一个产品,但使用了明亮的颜色和卡通角色,也就是2015年发布的《Spellstone》,虽然没有让游戏更加成功,但这样做把CPI降低到了5美元。

在这些经验的基础上,我们通过动画IP做了《Animation Throwdown》,游戏基本上没有改变,我们只是改了游戏前面一部分以及主题风格,让它更容易被大众接受,这给我们带来了很大的成功,CPI降到了2.5美元。

随后,我们决定在游戏制作之前就进行测试。比如我们想要做一款放置游戏,我们测试了大量创意,《Eon Heroes》、《Relic Raiders》以及《Castway Cove》,最休闲的一个产品是《Castway Cove》,它的点击率最高,所以我们决定做这个游戏。

不过,进入测试市场之后,我们陆续测试了多个版本,然而它的测试结果没有达到我们的要求,转化率低于我们预期的30%,而且转化率一直降低,所以这次测试是失败的。我们认为,主要原因可能在于,游戏创意与产品本身之间的关联性没有那么强。或许我们还做错了其他很多事,但总的来说,我们的经验是,你不能按照数据去决定自己的团队该做什么。

数据地图只会告诉你已知的世界,但创意需要探索的,是未知的世界,我们不知道的东西还有很多,游戏数据就是如此。通过数据,你做年货式的续作或许有参考价值,但如果想做《风之旅人》这样的创意产品,只依赖数据就行不通了。

最后要说的是,没有正确答案。

游戏市场有各种各样的成功产品:有EA Sports这样对熟悉玩法和品类不断推出续作的系列,也有大量的独立游戏制作了无数不知名的创新产品。

大多数的游戏开发者都可以归纳在黄色区域内,你的公司越大、预算越高,冒险的代价就越大,你需要满足股东、投资者甚至是现有玩家的预期。所以你做的每个决定都有风险,它可能会导致投资者撤资,还会导致大量的玩家差评,让你不得不留在熟悉的领域。

而作为独立开发者,你最大的冒险就是脱颖而出,你需要承担的冒险成本很低,可一旦成功,收益又非常高。

不过,这并不意味着没有例外,比如《星露谷物语》就是一个很熟悉的品类,但它的开发者却寂寂无名,但仍然成为了大作产品。另外一个极端是Supercell,这家公司虽然收入规模很大,而且成名已久,但却往往去尝试新品类,而且每一款游戏都很成功,因为他们有足够的资金支持他们冒险。

最后,无论你是哪一类人,都记得开拓视野、开放思想,祝你们有好的游戏数据和运气。

如若转载,请注明出处:http://www.gamelook.com.cn/2020/08/394778

关注微信