张昊阳:Generative Agents和AI游戏的未来

北京时间8月17日凌晨,OpenAI正式宣布收购游戏公司Global Illumination,这也是自2015年成立之始,OpenAI的首次收购动作。其实,生成式AI的发展一直与电子游戏相伴相随。2023年4月,美国斯坦福大学和谷歌研究团队联合发布论文《生成式智能体:人类行为的交互性仿真》(Generative Agents: Interactive Simulacra of Human Behavior),迅速得到全网关注。这项研究基于GPT-3.5,构建了25个由Generative Agent扮演的游戏NPC,每个NPC具备不同的思想、个性、记忆、计划、社交关系等人类属性,认真地在Smallville小镇中共同生活。

作为游戏领域的连续创业者,95后张昊阳属于最早投身于AI游戏的一批人,他本身也是中国第一批虚幻4引擎开发者,已经有长达8年的虚幻引擎游戏开发经验,主导过国民手游《和平精英》的部分AIGC预研业务,他和小伙伴们一直走在技术发展的前沿。早在2017年,张昊阳制作的AI虚拟伴侣就获得了某知名上市公司的投资。

《伊甸岛》制作人、AutoGame创始人张昊阳

2023年,张昊阳率先提出游戏领域的“全要素生成”理念,在行业内迅速引发关注,在腾讯时,他率领团队制作的中国版斯坦福AI小镇《伊甸岛》是最早探索Generative Agents与游戏结合的游戏产品之一。

那么,究竟什么是全要素生成?

科幻作品《西部世界》中描绘了这样一个场景:一群具备智能的机器人共同组成了一个小社会,但它们并不知道自己的真实身份是人造生命,都以为自己就是人类,在逐步揭开真相的过程中,发生了一系列有趣的故事。

而全要素生成,就是指在未来的游戏中,游戏策划和开发者,仅仅提供一个原始驱动力(Kickstart)就够了——游戏的所有元素,包括模型、文案、语音、行为、动作乃至场景等,都可以由AI来生成演绎。

在8月份看到OpenAI投资游戏公司的消息之后,通过和团队的共同讨论,张昊阳提出了猜想——大模型的底层能力,会真正改造整个游戏产业。而如果想实现具身智能,对软件公司来说,最有优势的其实是从游戏场景做起。

机会在哪?借助生成式AI的能力,未来的游戏可以由AI主导设计,自动进行游戏生成,这意味着不仅仅是体验层面的优化,还包括更多不同模态的UGC内容生成,比如说,用户可以自己搭地图,改元素,修改交互情景等。

对于这种场景的范式转换,作为具备游戏+AI双重背景的团队,张昊阳和小伙伴们也很激动能参与到这样的机会中去,在和平精英和伊甸岛项目积累了不少实战经验之后,他选择正式开始创业,躬身入局参与Agent的训练和迭代过程,通过自己在游戏产业多年的积累、国际化的视野和实践,让AI Agent能更好地去服务整个人类的生产生活,这也是他和团队对未来的愿景——游戏不单单停留在游戏本身,还能有更大的想象空间,最重要的就是,通过自己的努力,创造人类和数字生命的交互体验。

显然,张昊阳和团队成员们的探索之路已经开启。

游戏与现实的映照

记者:前几天OpenAI投资了一家叫做Global Illumination的游戏公司,站在资深游戏创业者和策划的角度,你怎么看这件事?

张昊阳:OpenAI投资的团队——Global Illumination,之前的产品主要以沙盒游戏为主,和MineCraft有些类似。其实OpenAI本身就有非常深厚的游戏基因,他们刚开始在通用人工智能这条路上的探索,首先就是从游戏AI出发,做了OpenAI Five,在DOTA2中进行5v5对抗,通过一系列尝试,才发展到现在。

我们的判断是,对未来世界和整个人工智能产业来说,游戏其实已经不再是游戏本身,本质其实是现实世界的数字孪生和模拟,可以反哺到现实世界当中。

再举个例子,如今用游戏引擎训练机器人已经不是什么新鲜事,具体来说就是利用游戏引擎的能力来制造AI训练用到的合成数据,加快机器人的训练速度。合成数据与现实数据相比,成本更低廉,能够更好地满足训练AI所需要的数据量,让AI适应更多场景。

记者:当初是什么契机让你们想做Generative Agents? 伊甸岛是一款什么样的游戏?

张昊阳:我创建了一支名为“伊甸计划”的团队,也是《伊甸岛》游戏的制作团队,斯坦福的论文《Generative Agents: Interactive Simulacra of Human Behavior》发布后,团队很兴奋,马上就开始思考Generative Agents在游戏领域的应用,这种模式探索了语言模型能否具备强互动体验的社交属性。这里其实可以把大语言模型想象成数字生命体,它具备常识,可以模拟真人决策。

但是我们真正想在游戏场景中实现的,是让Generative Agents真正融入游戏本身中去,为游戏玩法服务,最重要的是要给玩家带来全新的体验;并且,我们所理解的未来游戏实现方式,就是要足够AI Native(AI原生)。

记者:这里的Generative Agents融入游戏中,所带来的体验,听起来很有想象力,具体是什么样的?你们在这方面有什么样的探索?

张昊阳:伊甸岛的游戏策划主要是我和Josh负责,可以先让Josh谈谈他的想法。

Josh(伊甸岛主策):当初设计伊甸岛的时候,我们开始考虑的是——生成式AI作为一种工具,到底通过何种方式才能给游戏赋能?于是我们就开始研究,具备什么样特性的游戏,能让AI能力介入之后,会比AI能力没有介入的时候更好玩,核心还是要通过生成式AI这项新技术,让游戏本身变得更有意思。

张昊阳:对的,所以这里我们主要创造了一个情境,给游戏中的AI设定具体任务,例如让AI生存、互相合作或竞争。在设计过程中,去研究并且优化GPT如何操控NPC,设计行为规划,包括规避Generative Agents的成本、长时记忆和一致性问题。这里的成本问题就是不断优化提示工程,主要目标是在相对小体量的tokens数下,完成更多样的复杂体验。

为了确保AI行为和游戏剧情的连贯性,Generative Agents游戏还要解决长时记忆问题和一致性问题,这里主要是研究如何在给定的游戏情境,根据游戏的已有要素与当前环境状态,以及NPC自己的数值状态进行决策,从而规避AI过于发散。

重新定义游戏体验:AI剧本杀

记者:对一款游戏来说,以及站在玩家的角度,你们认为什么最重要?这块你们有没有什么创新?

张昊阳:最重要的核心之一还是游戏体验。对于伊甸岛这个游戏,我们就是要创造全新的体验,这里姑且把这种体验定义为“AI剧本杀”。这里的剧本杀,不是说让大语言模型自己去写故事,而是主动设定情境,将NPC与玩家、NPC与NPC交互过程中产生的事件与状态,总结成剧本。这个剧本就是我们在游戏里要呈现的故事,在《伊甸岛》游戏中我们把它叫作“荒岛日志”。

不同玩家在游戏中的不同选择,和AI产生的随机行为,会让游戏产生千变万化的故事走向,这也是我们所认为生成式AI融入游戏后的魅力所在。

记者:AI剧本杀这个概念听起来很有意思,能不能再详细解释一下?

张昊阳:我们给伊甸岛预设出来一个情境,游戏里有个创作者玩家,也就是最开始玩这个游戏的“上帝”,他可以去跟游戏中的NPC交互、改变世界元素等等,通过游戏行为扮演剧本的创作者,让玩家自己扮演编剧。其他玩家,则可以复玩创作者所创造的“剧本”,可以“夺舍”游戏里的某个NPC,以某个身份参与到游戏当中。

《伊甸岛》的地图设计取材于挪威的一处现实地貌

游戏与提示工程实践

记者:如果是将Generative Agent与游戏结合,就需要和生成式人工智能进行交互,要把提示词输入AI系统。因此,今年生成式AI领域,提示工程也比较火,但我理解提示工程这个领域比较新,那么你们游戏领域的提示工程实践是怎样的?和传统游戏的工程实践有什么区别?

张昊阳:我们伊甸计划提示工程的负责人是Leno,这里可以让Leno来回答。

Leno(提示工程师):和传统后端相比,提示工程更像是写作文,不好量化。因为传统后端想要实现某个功能,很明确就知道需要什么样的代码,比如常见的排序、搜索等等,都属于非常明确的功能需求。

但提示工程不一样,目前的人工智能都是黑盒,由于模型呈现网络结构,输出结果存在随机情况,因为大模型会产生幻觉(Hallucination),会输出无关信息。比如说,我们期待输出以逗号分隔的内容,但是大模型的输出会有用其他符号分隔的情况。这样一来,我们就得用提示词(Prompt),把具体的需求、内容格式和限制都告诉AI,单独要给大模型强调具体约束条件。

提示工程是要经过很多试验后,通过不断反馈,才能得到最佳实践。这里的最佳实践包括用怎样的提示词更好、用哪些句式会更加合适,让语言模型更容易理解人类想要完成的任务。

记者:能不能举一个游戏设计的场景?在工程这块具体是怎么做的?为什么这么设计游戏就能更好玩?伊甸岛和斯坦福AI小镇相比?有什么其他不一样?

Leno(提示工程师):在游戏开始之前,游戏会将环境信息发送给AI,进行初始化。这块包括玩家在游戏中会执行的具体行为动作与决策,还包括识别需要发送到后台的相应行为数据。之后,通过生成式AI,后台会生成动作之后返回。

今年四月,斯坦福AI小镇出来之后,明确了Generative Agents在游戏领域的方向。

我们团队之前的积累,和这个方向有很大相关性,所以我们很快就开始做试验。但是,斯坦福AI小镇论文呈现的Demo效果,主要集中在表演过程,没有交互实现,论文是用大模型生成的每天的大方向规划,然后基于这个规划执行,玩家无法参与交互。

如果从游戏体验感的角度来说,没有交互实现的场景,可玩性就会比较弱。所以我们就想,能否结合以前用传统模型做AI的方法,加上目前大模型赋予的能力,实现游戏领域更高效、更通用的人工智能。

因此,我们就不断优化我们的提示工程实践。除了结合斯坦福论文中提到的长期规划之外,把实时响应也融入了游戏当中。这里的响应,不单单指NPC之间的对话,还包括随机场景的引入。

比如说,NPC走到环境中,触发了游戏世界的物体。例如游戏内的某个NPC走到了河边,想要过河,但发现过不去。之后NPC看到旁边有一座桥,过去又发现桥是断的,还是过不去。这时伊甸岛里的AI具备实时响应的能力,知道桥断了,无法穿越,就会自动选择换一条路线,这就是实时响应。

玩家作为上帝,有限地影响进程,产生蝴蝶效应

但是,如果完全按照斯坦福AI小镇论文的设计,就不会有这样的实现。因为小镇论文Demo里的AI从开始就知道桥是断的,也知道选择其他路线会更优。于是,NPC根本选择一条不通的路,也不会有实时响应。而伊甸岛设置了荒岛求生主题的游戏场景,把不同角色都加到场景里。因此,在伊甸岛的设计过程中,我们会假定角色对游戏世界的认知为零,因为只有这样,才能真正还原荒岛上“数字生命体”的真实表现。

我们还在游戏里创新了更多可交互内容,包括数值设计。斯坦福AI小镇那篇论文里的Demo里是没有数值的,但是我们给伊甸岛的游戏世界引入了一些变量,比如在暴雪天,NPC们如何在荒岛上度过,在这样的场景下,玩家可以人为输入各种不同的干扰条件,令游戏的可玩性更强。

NPC在环境中记忆事件,迭代执行策略,不断学习,相互协同

总结一下,在斯坦福AI小镇论文里,所有的游戏AI都是按照长期规划,基于长期规划再生成短期规划的行进路线,这些规划会精确到每个小时、每十分钟,所有AI都按规划执行。这样的响应只存在于一种场景——就是与其他AI相遇时,会触发是否要进行对话,交互方式其实不存在。但是,伊甸岛的设计会更突出即时响应与多种交互方式。

关于游戏领域的垂直模型和未来:人类与数字生命的交流体验

记者:你怎么看待大模型在游戏领域应用的未来?

张昊阳:我们相信随着技术格局的变化,大模型的成本与部署难度会持续下降。因此,未来一定会出现成本更低、更轻量的大模型部署方案,甚至未来可能出现模型作为游戏内容的一部分,随着游戏内容一并分发,并在玩家本地的设备中运行。对未来的游戏开发团队来说,可以基于游戏训练各种特定应用场景的小模型,以实现不同能力,就像人的不同脑区拥有不同的功能一样。当然,与之相比更加火热的是训练不同“人格”的AI,现在,像Character.AI,MyShell等团队都在往这个方向尝试。

记者:展望一下大语言模型跟游戏业态的融合?目前还有哪些瓶颈?

Leno(提示工程师):首先,在生成游戏策略这块,大模型与传统模型的区别在于,大模型数据比传统单模态模型产出的数据更丰富,背景知识更广,所以拟人度更高。

其次,在丰富数据的加持下,使用大模型辅助,能够提升制作游戏的效率。过去,在游戏制作过程中,已经有很多场景应用过人工智能技术,比如AI Bot、AI配音、AI测试等,但还没有全流程自动化应用AI制作游戏的探索。而大模型的优势在于,它对训练数据具备理解能力,只要语料足够,就可以直接在同类型游戏内复用,特别是大模型在写实类游戏的落地。

还有就是数学计算输出错误的问题。问题在哪?因为LLM本质上是文本生成的模型。因此,未来还需要结合大模型与传统模态的模型,这样才能让生成式AI和游戏更好地结合。举个我们游戏策划实践中的例子,如果要做寻路模块,或者要实现具体打斗场景,目前单模态模型会让具体执行更加准确,传统方法会比大模型实现效果更好。如果全部都用大语言模型,有的时候输出会的逻辑性会弱。

当然,大语言模型的优点在于,语调更丰富、更拟人。因此,大模型和传统模态模型的结合,是未来游戏和AI集成应用场景的趋势所在。

关于AI Agent和创业:构建底层工具能力+产品双驱动模式

记者:听说你从腾讯辞职出来创业了,你们目前团队配置是什么样的?你认为什么样的团队是有AI基因的游戏团队?

张昊阳:我现在率领的创业团队,主要还是游戏产业背景比较深厚,设计经验比较足,人工智能领域这块经验也够丰富,同时具备国际视野。比如说,我自己是从腾讯和平精英出来的,我们团队还有暴雪、苹果Siri、Meta AI的工程师、名校毕业的算法和游戏开发者等。但最重要的是,我们是一帮对AI原生游戏有“执念”的人,大家都愿意为共同目标一起努力。

我们认为,游戏团队本质还是做游戏,也就是要有对整个游戏的设计流程有深刻的理解;除此之外,还要充分理解“玩家视角”,明白“什么是真正的好玩”。对于创业团队来说,落地速度也很关键,要在懂AI的基础上,实现游戏的敏捷开发,也就是具备迅速落地的能力。

记者:你怎么看现在游戏赛道做工具和做产品的公司?

张昊阳:我们对AI时代游戏领域的认知是,工具属于底层能力,底层能力对所有创业公司都非常重要,在这一点上,要坚定不移地持续构建底层能力壁垒。但是,但在这个基础上,还要推出面向玩家的、更好玩的To C产品。这也是我们的追求,因为所有的实践最终都要围绕玩家体验服务——始终要探索“什么是真正的好玩,究竟如何能更好玩”。

记者:你们以前在游戏制作过程中,用过AIGC工具吗?

张昊阳:我自己之前在腾讯内部的AI创新比赛中,就设计过训练AI玩游戏的强化学习工具套件,它本身也是个UGC创作工具。我和朋友们很早就开始探索AIGC工具在游戏领域的尝试,也积累了一些经验。当时我们伊甸计划的主美是Frank,除了Generative Agent的部分,所有素材基本全是Midjourney生成的,动画是用AIGC软件Animated Drawings生成的。Frank会用生成式AI去生成一些创意词汇,然后再拿Midjourney来给图片内容和美术风格定调。

《伊甸岛》中使用ControlNet进行地表风格化重绘

当然,游戏的工业化和很多IT领域的工业化一样,都需要周期。我们也看好新技术在和具体产业的结合,但所有结果都来自真正下场实践。业内通常管我们目前创业在做的AI游戏生成赛道叫text2game,主要探索成熟游戏工业管线当中落地的最佳实践,我创办的AutoGame也愿意成为这个领域最早入局的团队。

游戏+人工智能公司的壁垒

记者:站在你的角度,如果是人工智能+游戏领域的创业公司,究竟什么才是真正的壁垒?

张昊阳:我们对于游戏领域壁垒的理解,一方面是数据壁垒。这种数据壁垒的特性在于:游戏行业本身就是高度面向对象的领域,很多游戏数据都是多模态数据。其次,游戏领域的数据通常相对闭塞。因为游戏领域的数据需要持续积累,大家没办法把游戏作为语料,直接喂给GPT,进行模型训练。

我们目前创业的方向,其中也包括持续积累游戏领域的数据。同时,我们也会高度关注整个人工智能发展的行业周期,这里的行业周期,主要指生成式AI的能力。比如说,目前AI有建模能力,生成音效的能力,也可以让Bot做出行为决策和让NPC开口说话。

但是,AI能力的边界还需要行业人士进一步迭代和拓展,研究可动3D模型和动作生成,多模态的内容生成等等。这些底层能力和游戏的发展息息相关,是需要持续去研究并实践的。

记者:如何理解游戏垂直数据的获取难度?如何构建游戏领域的壁垒?你们在这里有哪些具体的计划?

张昊阳:和一些其他领域不同,游戏领域数据相对闭塞,存在于专业人士的脑海中,尚没有成规模地形成文字、图像等可以用于AI训练的数据,在公开网络中也很难获取到。除此之外,游戏领域的数据往往与游戏场景或对象强耦合,且具备跨模态属性,文本数据只占游戏领域内比较小的一部分,其他还包括图像、声音、2d动画、3d模型、3d动画等数据类型,并且这些数据通常与游戏引擎强绑定。

举个相对具体的例子,比如我们要做游戏逻辑生成,就会遇到大量游戏内代码,并且这些代码是高度耦合的,一旦某个代码片段生成出错,就有可能引发系统性崩溃。我们AutoGame团队提出的优化方法是(把大部分游戏会用到的通用模块,抽象成“积木元件(高度模块化的代码)”。

AI在充分理解这些“积木元件”功能的基础上,学习用此类元件拼装而成的“拼图”,比如FlappyBird、2048等游戏。说得再通俗一点,就是在“拼积木”的过程中见过“飞机”怎么拼,“坦克”怎么拼,将来需要拼“装甲车”的时候,只要告诉AI“装甲车”长什么样,它就能拼了,这就是应用了当前生成式AI特有的推理能力和涌现能力。

AutoGame团队研发的text2game工具可以让用户通过对话在工业引擎中生成游戏

前段时间,Meta发布了可以将多种数据流连接在一起的ImageBind,把图像、文本、音频、深度、热数据和 IMU 数据结合在一起,这就意味着多感官内容创造的逐步实现。也就是说,机器开始能和人类一样进行整体学习,引擎开始能理解并连接不同的信息形式,直接预测数据间的联系,并且逐步能以类人模型,进行感知与环境想象。

这类底层技术的迭代,真正会让生成游戏内容逐渐变为现实。但是,技术和产业的结合一定需要时间和数据准备周期,生成式AI和游戏领域的集成才刚开始,成为全球最早一批真正下场去做这件事情的团队,我们也觉得非常幸运。

记者:游戏的全要素生成,会是怎样的发展进程,什么时候能真正实现?

张昊阳:“全要素生成”这个概念是我首先提出的,选择从腾讯离职,创业成立AutoGame这家公司,也是为了实现“全要素生成”这个目标。我们认为,未来的三到五年内,这个目标就能够初步实现。

首先,在当前AI能力框架下,需要填补的最后一环就是游戏逻辑(游戏玩法)的实时生成。由于目前3D生成技术有待进一步成熟,这里我们以2D游戏为例。像小霸王和GBA这类游戏,无论是图像、2D动画、音效、音乐、语音生成,以及整个关卡布置等,现成技术的完成度都不错。

但是,在现有技术背景下,游戏逻辑(游戏玩法)的生成,尚待填补“最后一块拼图”。AutoGame要实现的目标,就是实现游戏逻辑的生成。这里我们把Agent定义为数字员工,逐步代替人类去完成游戏设计与游戏运行过程中的任务。比如说,数字员工可代替开发者写代码、代替人类生成数字资产、自动拼凑关卡等等。

3D生成技术也会迎来新突破。目前基于已有视频和图像的三维生成的技术也已相对成熟,像NeRF(Neural Radiance Fields:研究目的是合成同场景不同视角下的图像)这样的新领域和点线面这类传统三维模型范式,在模型静止的状态下,都可以输出相对较高的还原度。但是,还是要关注如何输出可蒙皮、可运动的内容,这些都属于非常值得探索和发展的技术。

最后就是前面提到的游戏垂直领域的数据积累,需要一个过程。不过,这需要我们和行业内所有生态伙伴,共同深耕,和全球游戏开发者和研究者们一起,共同努力,直到实现“全要素生成”这个目标。

记者:从伊甸岛到AutoGame,有什么样的心路历程?

张昊阳:在腾讯的时候,做AIGC预研和伊甸岛的过程中,有过很多技术验证的实践,特别是去探索AI是否具备人性,以及AI如何能更好地运用在游戏工业中。那时我们有非常熟悉的一帮朋友,都很喜欢尝试探索新技术和新场景,共计11名小伙伴组成的“伊甸计划”,大家一起去探讨、思索究竟AI以怎样的形式赋能游戏领域。

而AutoGame,是我在探索全要素生成的实现路径中,结合这些年的游戏研发经验,将产品形态、技术路径、商业模式、团队构成打磨成熟以后决定去成立的创业团队。AutoGame的所有成员都特别热爱游戏行业,大家都觉得,我们有一种天然使命感,去实现人工智能在游戏工业的真正价值。

于我个人来说,从伊甸计划到AutoGame是有一定的传承的。在伊甸岛的实践,是涉及如何从零到一探索Generative agents游戏的制作,明确游戏如何运用AI来全流程完成的游戏,主要使用AI数字员工,服务于游戏生产。

而AutoGame,则是真正要探索人工智能在游戏工业中更大、更远的未来,特别是如何和产业真正结合起来。我们希望有朝一日,所有热爱游戏的玩家,都能体验由我们亲手打造的全要素生成游戏。

记者:你怎么看头号玩家里的世界?聊聊未来?

张昊阳:游戏其实早就不止于游戏本身。在满足人们精神娱乐消费需求之外,游戏可以仿真现实世界的场景。人工智能在游戏过程中,可以去理解三维世界和空间,理解人类创造的虚拟世界规则,这样一来,就可以让AI做到更多现有能力无法做到的事情,让AI智能得到更好的发展。

游戏也具备原生多模态能力场景。多模态把文字、图像、视频、声音等不同的媒体形态,组合到同一场景当中,游戏其实是非常好的能够实践多模态能力的舞台,杨立昆(Yann Lecun)也提到过关于世界模型的预言。

我们希望能够在多模态和类游戏场景下,让AI大放异彩,这样AI可以学到更多的能力,反哺现实世界,最终服务于整个人类。

我们希望AutoGame可以实现这个愿景,随着行业周期演变,以及游戏领域更多的text2game公司逐步崛起,大家共同构建一个良好的数据生态,到那个时候,玩家和创作者只要提供一个点子,通过生成式人工智能技术,想要的游戏直接就可以生产出来。

等这一天真正到来的之时,创意就会解放,电影头号玩家里描述的情景就会成为现实,我们满怀期待地为这一天的到来而努力。

如若转载,请注明出处:http://www.gamelook.com.cn/2023/09/527511

关注微信