OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成

【GameLook专稿,未经授权不得转载!】

GameLook报道/在AIGC领域中,3D的AI生成是一块难啃的硬骨头。眼下,最先进的AI文生文、文生图技术已然可以走出实验室,开展应用层的探索,但AI的3D生成离实际落地还有不小的距离。

近日,OpenAI再度布局3D生成领域。此前OpenAI曾发布开源3D生成模型Point-E,成为3D生成赛道最早的领路人之一。而此后OpenAI并未暂缓3D生成的研究脚步,并于近日开源了另一个3D生成模型Shap-E。据OpenAI介绍,这一模型专注于生成独立的3D资产。

从图片中的演示可以看到,Shap-E的生成效果并不算让人印象深刻。与Midjourney这类早早进行产品化的商业产品不同,OpenAI至今发布的两款3D模型并未执着于优化最终的生成效果。在“算法,算力,数据”这三大AI基石中,OpenAI现阶段的研发重点主要围绕算法可行性的验证展开。

从算法层面而言,相较于英伟达的Get3D、谷歌的DreamFusion以及OpenAI自家的Point-E等同赛道竞争对手,Shap-E表现出了多个突出的优点。首先,Shap-E采用的隐式表达可以将生成的产物同时渲染为NeRF与纹理网格两种3D表达方式,这使得生成的模型可以方便地导入3D软件中进行处理。相较之下,Get3D仅能生成网格,而Point-E生成的则是点云。

此外,Shap-E采取了全新的训练方法,摆脱了其他模型中常见的经由2D图片中转的生成方式,是一款真正意义上的“3D生成”模型。

最后,Shap-E在生成速度上足以傲视市面上所有的3D生成模型——OpenAI称,Shap-E在使用3D和文本对应的大数据集进行训练后,“可以在几秒钟间生成复杂而多样的3D资产。”此前的Point-E就已经达到了秒级生成水准,而由于推理步骤更少,Shap-E的生成相较Point-E要更加迅速。相比之下,DreamFusion等模型动辄需要数分钟乃至数小时才能生成单个3D资产。

一名推特网友zer0int1将Shap-E生成的多种扶手椅模型放入3D引擎中检视,结果显示效果不错。生成结果已然可以被当作建模的基底白模使用。

GameLook也对Shap-E进行了初步试用。我们可以看到,对一些较为常见的物体模型,Shap-E的生成效果较为出色。如上图所示,Shap-E较为清晰地表示出了一张床的基本形状与颜色分布。

文字指令:mouse and keyboard

而假如想要生成的物品较为偏门,生成效果则显著下降。GameLook猜测,这一现象的证明眼下Shap-E的主要瓶颈是数据集大小,而OpenAI目前还没有投入大规模的数据进行训练。或许待确定了最终的技术路线后,OpenAI才会着手进行大规模的训练。

目前,3D生成这条赛道还尚处起步阶段。相较于文生文、文生图的AI训练技术,不仅3D生成所需的算法更加复杂,算力需求更高,能够被运用在训练中的高精度3D模型数量本身就极为有限。多种因素叠加之下,成熟的文生3D产品或许还需多年的时间才能与我们见面。

但与此同时,投入3D生成赛道的头部公司如云,这也是GameLook对该赛道持乐观态度的原因。前文提及的英伟达、谷歌等公司早已纷纷入局,而据市场传言,凭借文生图产品一炮走红的Midjourney公司目前也在开发3D生成产品。

这一信息的爆料人自称这一消息来自与MidJourney官方人员的线下交流,并获得了多个关注AIGC领域的KOL转发。Midjourney官方未做出正式回应,但创始人David Holz在三月时曾公开表示过开发3D生成模型的意愿。

不可反驳的是,如今的3D生成效果还十分简陋,但随着不断地迭代与训练投入,或许待变革真正来临之时,AI吸取养分的速度会比我们想象得更快——有人将Midjourney各个模型版本的生成效果并列,进行直观比较。早期的V1、V2版本连五官比例都完全扭曲,而到最新的V5.1版本中,AI早已兼具精细度与构图能力,生成效果可以比肩高端影楼艺术照。

谁能想到,Midjourney取得如此长足的进步,花费的时间不过一年出头?而假若类似的进步速度在3D生成领域得到了复现,这一技术势必会在虚拟娱乐领域掀起一场彻底的革命。

如若转载,请注明出处:http://www.gamelook.com.cn/2023/05/517239

关注微信