a16Z深度分析:游戏领域的生成型AI革命

【GameLook专稿,未经授权不得转载!】

GameLook报道/继元宇宙之后,AI绘图可以说是近期业内非常火热的话题。不过,由机器学习、神经网络等多个先进技术支持的AI并不只是可以作图,它还可以被运用到游戏制作的方方面面。

最近,世界知名投资公司Andreessen Horowitz旗下分析师专门就生成型(generative)AI进行了深度探索,并且列出了这个新兴领域的市场版图。

以下是Gamelook编译的全部内容:

想要了解生成型AI将会对游戏行业带来多么彻底的变化,没有什么比最近emmanuel_2m的社交帖子更合适。他贴出了使用热门2D生成型AI模型Stable Diffusion+Dreambooth,为一款假想的游戏生成了多个药剂图片。

更具有变革性的是,这个作品不只是节约了时间和金钱,还带来了比较高的品质,因此打破了经典的“你只能在成本、质量或者速度三者选二”的不可能三角。如今,美术师们可以在数小时内生成高品质图片,以往用手绘可能需要数周的时间完成,真正具有变革性的是:

这个创意能力现在已经面向任何能够学习一些简单工具的人们开放;这些工具可以通过高度迭代的方式创作无尽的变种图片;一旦培训,这个过程是实时的,结果几乎是即时可见。

自从实时3D之后,还没有一个技术能像它这样具有革命性,任何时候与游戏创作者们交谈,都可以感觉到兴奋和惊奇。那么,这个技术走向何方?它会如何改变游戏?不过,首先我们需要了解什么是生成型AI。

什么是生成型AI?

生成型AI是一个机器学习类别,计算机可以根据用户的指令生成原创新内容。如今文本和图形是该技术最成熟的应用领域,但这个工作基本在每一个创意领域都在尝试,从动画到音效,到音乐,甚至创造个性丰满的虚拟角色。

当然,AI在游戏行业并不新鲜。甚至是在游戏发展的早期,比如雅达利的《Pong》就加入了电脑控制的对手挑战玩家,只不过,这些虚拟对手运行AI的方式并不像今天那样,它们实际上只是游戏策划创作的脚本程序,它们模拟了AI对手,但不能学习,因此只能达到打造他们的程序员那个水平。

现在不同的是,由于更快的微处理器和云,可用的计算能力更强大。有了这个算力,就有可能构建大型神经网络,以识别高度复杂领域中的规律和呈现。

本文分为两部分:第一部分包括了我们的观察和生成型AI领域游戏方面的预测,第二部分是这个领域的市场地图,列出了不同部分并找到各个部分里的关键公司。

观察和预测

假设

首先,我们探讨一下本文其余部分的假设:

1、在整体AI领域做的研究量会继续增至,创造出更多有效的技术

考虑一下arXiv档案中每个月发表的关于机器学习或人工智能的学术论文数量的图表:

如图所示,论文数量呈现指数级增长,而且没有减缓的迹象。而且,这还只包括了已发表的论文,很多这种研究论文甚至从未公开发表,就直接进入开源模式或者产品研究,该结果是兴趣和创新的爆发。

2、在所有娱乐当中,游戏受生成型AI的影响最大

在包含的资源类型方面(比如2D美术、3D美术、音效、音乐、对话等),游戏是最复杂的娱乐形式。游戏也是最具互动性的一个,非常强调实时体验。这就为新游戏开发者们创造了一个很高的门槛,打造一款现代化、头部游戏也有很高的成本要求,当然,这同样给生成型AI创造了打破市场大量的机会。

考虑一款像《荒野大镖客2》这样的游戏,这是有史以来造价最贵的游戏之一,研发成本接近5亿美元。我们很容易看出来高成本背后的原因:它拥有者市面上所有游戏当中,最美丽、完整实现的虚拟世界。它的研发耗时8年,具有超过1000个NPC角色(每一个都有自己的歌星、美术作品和配音演员),一个接近30平方英里的世界、分布在6个章节当中超过100个任务,以及由超过100位音乐人打造的60小时音乐,这款游戏的一切都很大。

现在,用《荒野大镖客2》与《微软飞行模拟器》对比,后者不只是大,简直是非常庞大。《微软飞行模拟器》可以让玩家围绕整个地球飞行,包括整个星球的1.97亿平方英里。微软如何打造了这样一款大型游戏?主要是通过AI来做,该公司选择与blackshark.ai合作,训练一个AI从2D卫星图片生成照片级3D世界。

这是一个不使用AI就无法完成的游戏案例,更重要的是,这些模型可以随着时间持续提升。例如,他们可以改进“公路立交桥”模型,重新运行整个建造过程,然后突然间整个地球上所有的公路立交桥都得到了改善。

3、游戏制作中的所有资源都将有一个生成型AI模型

得益于它们生成的图片非常具有吸引力,目前为止像Stable Diffusion或Midjourney这样的2D图形生成器捕获了大量的热度。但几乎所有游戏里的资源都已经有了生成型AI模型,从3D模型到角色动画,到对话以及音乐。本文第二部分包括一个聚焦不同类型的公司地图。

4、内容价格会大幅下降,有些情况下会接近于0

当与正在尝试将生成型AI整合到他们制作管线里的游戏开发者交谈时,让他们最兴奋的是研发时间和成本的大幅下降。一名开发者告诉我们,他们为一张图片生成概念艺术的时间,从开始到完成,从3周时间降低到了一个小时,几乎是从120降到了1这样的程度。我们认为,类似的节省效率会在整个制作管线中实现。

要清楚的是,艺术家没有被取代的危险。这确实意味着艺术家不再需要自己完成所有工作:他们现在可以设定最初的创作方向,然后将大部分耗时和技术执行交给AI完成。在这一点上,他们就像早期手绘动画的“画工”,在手绘动画中,技艺高超的“墨客”画出了动画的轮廓,然后由成本较低的“画工”组成的队伍来完成绘制动画的耗时工作,填充线条。这对游戏创作来说是“自动完成”。

5、我们仍在这次革命的萌芽期,很多方法仍需改进

尽管最近围绕生成型AI的热度很高,但我们仍只是站在起跑线上,在我们研究如何将这项新技术用于游戏时,还有大量的工作要做,而快速进入这一新领域的公司将获得巨大的机会。

预测

基于这些假设,这里是对于游戏行业将如何被转变的一些预测:

1、学习如何高效率使用生成型AI将成为一个畅销技能

我们已经看到一些使用生成型AI的试验比其他人更有效率,要充分利用这项新技术,需要使用各种工具和技术,并知道如何在它们之间切换。我们预测,这将成为一种畅销的技能,将艺术家的创意愿景与程序员的技术技能相结合。

Chris Anderson说过一句名言,“每次富足都会产生新的贫乏”。随着内容变得充足,我们认为,最紧缺的是那些懂得如何与AI工具进行最有效协作的艺术家。

比如,使用生成型AI做美术创作包含特别的挑战,包括:

一致性。对于任何资源制作,你都需要在过程中能够对资源做出改变或编辑,有了AI工具,意味着同一个指令就可以重新制作这些资源,所以你可以随后做出改变。当然,这是有些棘手的,因为同一个指令也能生成非常不同的结果。

风格。在一款特定游戏里,所有美术保持连贯的风格是很重要的,意味着你的工具需要用你的特定风格训练,或者与之绑定。

2、低门槛会导致更多冒险和创意探索

我们或许很快会进入一个新的游戏研发“黄金时代”,这时候更低的门槛会导致创新和创意游戏的大爆发。不仅是因为更低的制作成本降低了风险,还因为这些工具让帮助更多人解锁了创造高品质内容的能力。

3、AI协助的“微型游戏工作室”数量增加

有了生成型AI工具和服务的帮助,我们将会看到更多可行的商业游戏被仅有一两名员工的“微型工作室”制作出来。小型独立游戏工作室的想法并不新颖,比如大作《Among Us》就是只有5名员工的Innersloth完成,这些小工作室如今可以创作的游戏规模和大小将会增长。

4、每年发布游戏的数量增多

Unity和Roblox的成功向我们展示的是,提供强大创意工具会带来更多游戏被打造出来。生成型AI会进一步降低门槛,创造甚至更多的游戏数量。行业已经遭遇了曝光率挑战,仅过去一年Steam就新增了1万多款游戏,这会进一步给游戏曝光量带来压力。

5、在生成型AI之前不可能的新游戏类型将会出现

我们将会看到新游戏品类的产生,这些游戏没有生成型AI是不可能存在的。我们之前提到过《微软飞行模拟器》,但将会有依赖于实时生成新内容的全新品类出现。

考虑Spellbrush的《Arrowmancer》,这是一款由AI创作角色的RPG游戏,几乎有着无限的新玩法。

我们还知道有其他游戏开发者在使用AI让玩家创造自己的游戏内化身,此前,他们有一组手绘的化身图像,玩家可以混合和匹配这些图像来创建他们的化身。现在,他们完全抛弃了这一点,只需根据玩家的描述生成化身图像。让玩家通过AI生成内容比让玩家从头上传自己的内容更安全,因为AI可以被训练以避免创建攻击性内容,同时仍然给玩家更大的主人翁意识。

6、行业特定AI工具将带来价值,而不只是基础模型

围绕Stable Diffusion和Midjourney这样基础模型的兴奋和狂热,导致了令人瞠目结舌的估值,但不断涌现的新研究确保了随着新技术的完善,新模型会不断涌现。我们来看Dall-E、Midjourney和Stable Diffusion这三种热门生成型AI的网站搜索流量,每个新模型都会受到关注。

另一种方法可能是构建与行业一致的工具套件,重点关注特定行业的生成型AI需求,深入了解特定受众,并将其与现有制作管线(如游戏的Unity或Unreal)进行丰富集成。

一个很好的例子是Runway,它通过AI辅助工具(如视频编辑、绿屏删除、修复和运动跟踪)来满足视频创作者的需求。像这样的工具可以建立特定的受众并实现变现化,随着时间的推移增加新的模型。我们还没有看到在游戏赛道这样的工具套件出现,但可以确定的是,这是一个活跃发展的空间。

7、法律挑战将至

所有这些生成型 AI模型的共同点是,它们是使用大量内容数据集进行训练的,这些数据集通常是通过抓取互联网本身创建的。例如,Stable Diffusion是在从网络上抓取的超过50亿个图像/字幕匹配进行训练的。

目前,这些模型声称在“合理使用”版权原则下运作,但这一论点尚未在法庭上得到明确检验。显然,法律挑战即将到来,这可能会改变AI领域的面貌。

大型工作室有可能通过构建基于其拥有明确权利和所有权内容的专有模型来寻求竞争优势。例如,微软在这方面的地位尤其突出,目前有23家第一方工作室,在收购动视后又可以增加7家。

8、编程不会像艺术内容那样被深度打破,至少现在不会

软件工程师是游戏研发的另一个主要成本,但业内分析师最近表示,“艺术没有死,它只是被机器生成了”,使用AI模型生成代码需要更多的测试和验证,因此与生成创意资产相比,生产率的提高较小。Copilot这样的写代码工具可能会给工程师们带来一定的性能提升,但不会像对美术领域的影响那么大,至少短期内不会。

建议

基于以上预测,我们提供以下建议:

1、现在就开始探索生成型AI

想要搞明白如何充分利用即将到来的生成型AI革命,必定需要一定的时间,现在开始探索的公司会在以后取得优势。如今已经有多个工作室拥有内部试验项目,探索这些技术可能对游戏制作带来的影响。

2、寻找市场地图机会

我们市场地图中的一些部分已经非常拥挤,就像动画或者语音与对话,但其他领域仍然是开放的。我们鼓励对这个领域感兴趣的企业家们聚焦于仍未被探索的领域,比如游戏领域的Runaway。

市场地图

目前市场状态

我们创作了一张市场地图,以捕捉我们认为在这些类别我们看到生成型AI影响游戏的公司列表。这篇文章对每个类别进行了了解,并且解释了一些细节,强调了每个类别最令人兴奋的公司。

2D图片

通过指令生成2D图像,已经是生成型AI最为广泛使用的领域之一。像Midjourney、Stable Diffusion和Dall-E 2都可以通过文字获得高品质2D图片,而且可以在游戏生命周期的多个阶段融入游戏制作环节。

概念艺术

生成型AI工具非常擅长“构思”或帮助非美术师(如游戏策划)快速探索概念和想法,以生成概念艺术品,这是制作过程的关键部分。例如,一家工作室(匿名)正在一起使用这些工具,以从根本上加快他们的概念艺术流程,用一天的时间来创建一个之前可能需要3周的图像。

首先,他们的游戏策划使用Midjourney探索不同想法,并生成他们找到灵感的图像。这些图像交给专业概念美术师进行组装,并将这些结果绘制创造出一张连贯的图像,随后放到Stable Diffusion创作大量的变体。

他们讨论这些变体、挑选一个,手动绘制一些东西,然后重复这个过程,直到对结果感到满意。这个阶段,随后将这些图片最后一次放回Stable Diffusion,用它创作最终的艺术作品。

2D制作美术

一些工作室已经在尝试用同样的工具做游戏内美术制作。比如,Albert Bozesan就对于如何创作游戏内2D资源做了一个非常不错的新手教程(连接)

3D美术

3D资源师所有现代游戏的基石,包括对即将到来的元宇宙也是如此。一个虚拟世界、或游戏关卡,本质上就是一系列3D资源,放置和修改以让环境焕发生机。然而,创作一个3D资源比打造一张2D图片更为复杂,而且需要多个步骤,包括创作一个3D模型和增加纹理与特效。对于一个动画角色,还需要创造内部“骨骼”,然后在这个骨骼之上制作动画。

我们已经见过多个不同的初创公司追寻这种3D资源创作流程的不同阶段,包括模型创造、角色动画和关卡打造。然而,这仍是个尚未解决的难题,这些方案还没有一个能够整合到游戏制作管线当中。

3D资源

试图解决3D模型创作问题的初创公司,包括Kaedim、Mirage和Hypothetic。更大的公司也在关注这个问题,包括英伟达的Get3D和Autodesk的ClipForge。Kaedim和Get3D聚焦于图形到3D,ClipForge和Mirage专注于文字到3D,而Hypothetic则对两个领域的研究都感兴趣。

3D纹理

只有纹理或素材应用到网格上之后,一个3D模型才回看起来真实。决定将哪种苔藓、风化的石头纹理应用于中世纪城堡模型,可以完全改变场景的外观和感觉。纹理包含关于光对材质的反应(即粗糙度、光泽度等)的元数据,可以让美术师根据文本或图像提示轻松生成纹理,对于提高创作过程中的迭代速度非常有价值。几个团队正在寻求这个机会,包括BariumAI、Ponzu和ArmorLab。

动画

在游戏创作过程中,打造优秀的动画是最耗时间、最昂贵和最需要技巧的部分之一。降低成本并创作更多写实动画的一个方法,是用动态捕捉,这时候你让演员或者舞者穿上动捕套装,并在一个特殊结构的动捕舞台录下他们的移动过程。

我们现在又已经可以看到生成型AI模型可以直接从视频捕捉动画,这更有效率,既因为它去掉了购买昂贵动捕套索的需求,也因为意味着你可以从现有视频捕捉动画。这些模型令人激动的另一个方面是,它们还可以被用于过滤现有动画,比如让他们看起来醉酒、苍老,或者换了。追寻这个领域的公司包括Kinetix、DeepMotion、RADiCAL、Move Ai和Plask。

关卡设计与世界构建

游戏创作最好时间的领域之一就是打造一款游戏的世界,这个任务应该是生成型AI非常能够胜任的。像《我的世界》、《无人深空》和《暗黑破坏神》都是使用程序化技巧生成关卡的代表作,这些游戏里的关卡是随机生成的,每一次都有所不同,但都遵循关卡策划定下的规则。新UE5引擎的一个大卖点,就是一系列开放世界设计的程序化工具,比如树叶放置。

我们在这个领域看到了一些初创公司,像Promethean、MLXAR或者Meta公司的Builder Bot,生成型技术取代程序化技术只是个时间问题。这个领域的学术研究也有相当长的时间,包括为《我的世界》或者《毁灭战士》关卡设计的生成型技术。

关卡策划生成型AI工具另一个值得期待的原因,是能够创造不同风格的关卡和世界,你可以想象让工具创造一个1920年代太妹时代(flapper era)的纽约,与反乌托邦式刀锋杀手式的未来,以及托尔金式的幻想世界。

一下概念是通过指令“a game level in the style of …”用Midjourney生成的

音频

声音和音乐是游戏体验很大的一部分,我们已经看到有些公司用生成型AI生成一些音频以补充已经发生在图形侧的工作。

音效

音效对AI来说是具有吸引力的公开领域,已经有学术论文探讨用AI生成电影里的脚步声,但游戏领域尚没有太多商业化产品。

我们认为这只是个时间问题,因为游戏的互动本质让这个领域成为生成型AI很明显的应用领域,既包括创造静态音效作为制作的一部分(如星战风格的激光枪声音),还包括创造运行时的实时互动音效。

考虑一些像为玩家角色生成脚步声这样简单的事情,大多数游戏解决这个问题都是用预先录制的脚步声:走在草地上、走在砂石上、在草地上奔跑、在砂石上奔跑等等,这些生成和管理起来都很繁琐,运行时听起来重复且不真实。

更好地方法是专门为音效打造一个实时生成型AI模型,让它能够实时产生合适的音效,每一次都略微不同,并且对游戏内参数作出反馈,比如地表、角色重量、步态、鞋子等等。

音乐

音乐始终是游戏的一大挑战,它很重要,因为可以帮助设定情感基调,就像在电影或电视里做到的那样,但由于游戏可以持续数百甚至上千个小时,这很容易变得重复或者令人烦躁。而且,由于游戏的互动本质,音乐很难在任何时候都精准匹配屏幕上发生的事情。

可调节音乐成为游戏音频话题已经超过20年了,最早可以追溯到微软为了创造互动音乐而打造的“DirectMusic”系统。DirectMusic从未被广泛使用,很大程度上由于难以按格式创作。只有几款游戏创作过真正互动的分数,比如Monolith的《No One Lives Forever》。

如今我们看到多家公司尝试创造AI生成音乐,比如Soundful、Musico、Harmonai、Infinite Album和Aiva。虽然如今有些工具,比如OpenAI的Jukebox需要高度密集计算且不能实时运行,一旦模型打造出来,其余大部分都可以实时运行。

语音和对话

有很多公司试图为游戏内角色创造真实的声音,考虑到通过语音合成为计算机配音的悠久历史,这一点并不奇怪。这些公司包括Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai等等。

使用生成型AI做语音有多个优势,也解释了为何这个领域比较拥挤。

即时生成对话。通常情况下游戏里的语音是配音演员提前录制的,但这些仅限于预录制的语音。有了生成型AI对话,角色可以说任何东西,意味着他们可以对玩家所做的事情完全做出反应。加上更智能的NPC AI模型,对玩家互动做出完全反馈的游戏即将到来。

角色扮演。很多玩家想要扮演几乎与显示身份完全不同的幻想角色,然而,当玩家用自己的声音说话的时候,这个幻想很快破灭了。使用匹配玩家化身的生成声音可以保持这种错觉

控制。随着语音的产生,你可以控制声音的细微差别,比如它的音质、变音、情感共鸣、音素长度、口音等等。

本地化。允许对话被翻译成任何语音并用同样的语音说出来,像Deepdud这样的公司专门聚焦于这个小众领域。

NPC或玩家角色

很多初创公司在寻求使用生成型AI创造可以互动的可信角色,部分是因为这是一个可以在游戏之外也能广泛运用的市场,比如虚拟助手或者接待员。

创造可信的角色,最早从AI研究开始就已经在尝试了。实际上,AI经典的定义“图灵测试”,就是一个人应该无法区别与AI还是和人类在聊天。

目前,有数百家公司在构建通用聊天机器人,其中许多是由类似GPT-3的语言模型驱动的。少数人专门尝试以娱乐为目的聊天机器人,如Replika和Anima,他们试图打造虚拟朋友。如电影《她》中所探讨的与虚拟女友约会的概念,可能比你想象的更接近。

我们现在看到了这些聊天机器人平台的下一个迭代,比如Charisma.ai、Convai.com或者Inworld.ai,旨在支持全3D渲染角色,具有情感和能动性,并提供工具让创作者为这些角色设定目标。如果他们想融入游戏,或者在推进剧情方面有一个叙事的位置,而不是单纯的装模作样,这一点就很重要。

多合一平台

Runwayml.com是目前最成功的生成型AI工具之一,因为它将很多创作者工具汇聚在一个包体之内。目前还没有这样的平台服务游戏,我们认为这是一个被忽视的机会,我们了与投资这样一个解决方案:

覆盖整个制作过程的生成型AI工具(代码、资源生成、纹理、音频、描述等);紧密与Unreal和Unity这样的热门引擎整合;旨在适合典型的游戏制作管线。

总结

这是成为游戏创作者非常不可思议的时刻,部分得益于本文今天提到的工具,创造一款游戏需要的内容从未如此简单,哪怕你的游戏像整个星球那么大。

甚至可能有一天想象一款完全个性化的游戏,只是为了玩家创造,完全基于玩家想要。这在科幻小说里很久之前就发生了,比如《Ender’s Game》里的“AI Mind Game”,或者是《星际迷航》里的全息甲板。但是,本文提到的工具正在快速发展,不难想象这样的现实即将到来。

如若转载,请注明出处:http://www.gamelook.com.cn/2022/12/505554

关注微信