OpenAI“模拟真实世界”震惊全球,AI有望挑战拍电影、做游戏?

【GameLook专稿,未经授权不得转载!】

GameLook报道/还得是OpenAI。

在去年,ChatGPT、Stable Diffusion、Midjourney等重量级AI应用接连问世,让不少人将2023成为”生成式AI元年“。原以为这一领域将会短暂地陷入停滞,但谁知道,前不久还在闹宫斗大戏的OpenAI,这次居然又拿出来了重量级的应用。

图中的这位女性行走在夜景绚丽的大街之上,镜头随着她的行动一同移动,时而切换到她的面部来个大特写。墨镜中反射出街景的反光,背景和人的位置关系也随之自然运动。这段看似平平无奇的镜头,事实上并不是由摄影师拍摄的,而是完全由AI生成。

靠着一段又一段效果炸裂的视频演示,由OpenAI在2月16日推出的最新文生视频模型Sora,在近期引爆了公众的话题讨论。超高的视频生成质量让不少人直呼:”好莱坞完蛋了!“

好莱坞完蛋了吗?也许还早。但在GameLook看来,仅仅是高质量的视频内容生成,并不足以概括Sora的全部能力。在每天和3D世界打交道的GameLook看来,它还有更为重要的意义:我们对虚拟世界的全部认知,或许将在未来迎来全面改写。

初创公司抢滩的Text-to-Video赛道,OpenAI的秘密武器是?

在Text-to-Video(文生视频)赛道,OpenAI可谓姗姗来迟。GameLook曾报道过多家同赛道的AI创业公司,比如GameLook此前曾报道过的Runway、Pika Labs等,这些公司的文生视频此前也在AI圈内获得关注。

Runway Gen2 生成效果演示

与这些初创公司相比,OpenAI的Sora的优势看似显而易见:更高的生成精度、更流畅的动作等等。但更多科技界大佬则关注到了Sora的另一个与众不同之处:在理解物理效果这方面,Sora似乎有着异乎寻常的强大能力。

360公司创始人周鸿祎就一针见血的指出,与此前基于扩散模型、在2D 平面上对图形元素进行操作的文生图、文生视频技术相比,Sora 的技术思路完全不一样。“它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”

英伟达的AI Agent研究负责人Jim Fan博士也表达了同样的观点:“Sora是一个数据驱动的物理引擎。这个模拟器通过去噪和梯度数学来学习复杂的渲染、直觉性物理效果、长期推理和语义基础……如果最后证明Sora使用了大量虚幻5引擎的数据进行学习,我也丝毫不会惊讶!”

这事实上也是OpenAI为Sora给出的官方定义:Sora并不只是一个能够生成一分钟视频的AI工具, 更代表着一条“建造物理世界通用模拟器”的基础方向。在官方博客中,OpenAI明确表示,“我们正在教会AI理解并模拟动态的物理世界,并打造一个工具,帮助人们解决需要现实世界交互的问题。”学习现实世界的物理效果,而非生成炫酷的画面,才是Sora的第一要务。

在官方给出的示例中,我们可以看出不少Sora超出同类AI的出彩之处。

比如对流体效果的精细模拟和物体之间的物理交互:在这个演示中,瓶中液体的动态效果已经相当经得起细看。而且两艘大船随浪花一同摆动的效果,也让人看不出破绽。

此外,Sora非常擅长于在维持画面中物体一致性的情况下,进行视角转换、缩进缩放、推拉摇移等动态效果。这种效果让人真正感受到视频之中存在一个符合现实规律的3D空间,而不止是单纯对像素点进行移动。

也有网友指出,在官方视频中,一个路边的招牌在被画面中的人遮挡后再次显现,这张招牌前后几乎没有出现任何变化。这种一致性效果在传统的文生视频解决方案中几乎不可能存在。

由于并非科技行业的工作者,身处游戏行业的GameLook对Sora的存在原本并没有过多的兴趣。但在了解到Sora作为“物理世界通用模拟器”的定位后,GameLook才真正开始感知到其威力。在新技术的助力下,一场针对我们所熟知的游戏开发方式的变革风暴,也许正在酝酿之中。

“涌现式物理”,AI游戏的新时代正在开启?

针对Sora所展现出的物理效果,Jim Fan博士为其给出了“涌现式物理”的描述。他认为,正如GPT-4这类语言大模型生成文字一样,Sora证明了物理模拟也可以作为涌现式生成的对象。

基于这一观察,Sora的横空出世也许将彻底改变我们看待AI原生游戏、乃至通用游戏开发的方式。

传统上看,电子游戏的开发更像是“搭积木”:设计者将作为“积木块”的3D模型导入虚幻、Unity等引擎,并为积木块赋予物理规则和各项运动属性,随后组装在一起,构建起一款游戏。一度热门的“Text-to-Game”(文生游戏)模式,也大抵依赖这一流程,只是将积木的搭建过程交由AI进行自动化处理。

而Sora的“涌现式物理”则向我们揭晓了另一条路径:对于AI生成的3D世界来说,积木块本身或许并不是抽象层面所必须的。通过AI生成的物理效果,我们同样可以实现与世界的交互。又或者,在保留积木块的前提下,由AI负责生成积木块之间的运动规则——在布料解算、流体模拟仍然是各家游戏厂商程序团队的大难题的情况下,即便仅实现了后者,其对于游戏开发的效率来说也已经是跨越式的进步了。

Jim Fan博士认为,在理论上,如UE5这类3D引擎与Sora之间有很多相似之处:“如果我们不考虑交互,UE5是一个(非常复杂的)生成视频像素的过程;Sora也是一个生成视频像素的过程,只是基于端对端的Transformer。它们的抽象度是一样的。区别在于,虚幻5是手工的、非常精确,而Sora是通过数据学习的,更依赖‘直觉’。”

在OpenAI的官方演示中,就出现了一个由Sora生成的“3D世界”。从视频中来看,它与我们所熟悉的《我的世界》别无二致。除了标志性的方格美术效果之外,Sora更实现了不少交互式的物理效果,比如由遮挡产生的阴影、生物在平面上的移动等等。这一生成过程并没有涉及到任何的3D模型,但AI已经展示出了对游戏世界的初步理解。

诚然,当下的Sora对物理世界的理解仍有不少欠缺。OpenAI官方也列举出了不少生成错误的情况——比如,一个不注意,挖出的沙堆就变成了一把椅子,让人啼笑皆非。

但Jim Fan认为,即便这种不完美让当下的Sora无法取代UE5,但它的出现已经证明了许多问题:“Sora正处于GPT-3时刻。在2020年,GPT-3是一个很烂的模型,它需要很多的提示词调整和人工的监督。但是GPT-3首次有力证明了基于情景的学习可以生成涌现式的对象。”

在Sora面世后的全网热潮中,绝大多数人都在热议其在影视、广告行业的应用潜力。按照目前OpenAI的演示,它的确已经有能力制作出媲美商用视频素材的高质量素材——尽管在逻辑性、生成速度和生成成本方面,它距离大规模的商用无疑仍有距离。

但作为游戏业的观察者,这个“通用物理模拟器”的诞生更让GameLook感到激动。

某种意义上,它与我们对3D世界搭积木式的传统认知背道而驰,但Sora展现出了另一种理解3D世界的抽象逻辑——一种不符合人类直觉,但也许更符合AI推理“直觉”的抽象逻辑。

如果说此前人类在文生游戏、文生3D领域等AI领域的探索或多或少陷入了死胡同,顺着Sora所新开辟的思路,我们或许能够更容易地探索出更适合AI的游戏生成路线。皆时,我们也将与真正的“AI原生游戏”渐行渐近。

如若转载,请注明出处:http://www.gamelook.com.cn/2024/02/538208

关注微信