【GameLook专稿,未经授权不得转载!】
GameLook报道/在公众还对GPT-4发布会意犹未尽之时,微软在悄然间扔下一枚重磅炸弹:由微软亚洲研究院扛鼎开发的AI模型RODIN首次实现了利用Diffusion扩散模型进行3D建模。该项目的论文目前已被计算机领域顶级学术会议CVPR接受。
在生成型AI领域,各大公司已然在文字、图片领域取得了长足的进步。然而文字生成3D模型这条赛道上,入局者还尚属有限。此前谷歌曾推出DreamFusion,英伟达曾推出Magic3D,但就生成效果而言,两家的技术距离商用还有较远的距离。
而此次RODIN的推出与让人信服的生成结果,让我们首次看到了利用AI创作3D内容的曙光。
RODIN究竟强在哪?
RODIN取自Roll-out Diffusion Network的缩写。顾名思义,其应用了Diffusion扩散模型。在以往,扩散模型被用与进行2D图像的生成。而RODIN首次提出了3D Diffusion Model的概念,开创了领域的先河。
先来看看RODIN的生成效果。微软亚研院宣称,只需一张照片,用户就可以生成属于自己的扩散模型。从图片可以看出,尽管在西装的纹理上还有所欠缺,但面部生成的结果已经让人十分满足了。
此外,用户可以输入文字prompt,对想要的3D形象进行直接描述,进而进行3D模型的定制化生成。多样性触手可及。
微软同时大幅提高了生成的准确度。同时期其它3D图像生成常会出现模型扭曲乃至“双面人”的情况,但微软通过加入多视角的训练素材解决了这一问题。
高效的生成是RODIN的另一大优势。据微软官方介绍,使用RODIN进行图片输出,所消耗的时间仅为秒级!从数字上看,这简直是天方夜谭。假如将传统的2D扩散模型直接扩用于3D,其会对内存与算力造成庞大的消耗,不可能拥有如此之高的出图效率。
然而,微软亚研院给出了一个巧妙而创新的解决方案,是将 3D 空间在横、纵、垂三个正交平面视图上以二维特征展开,让RODIN模型仅仅利用2D扩散模型就实现了3D生成的效果,同时大幅减少了对处理性能与显存的压力。
更值得一提的是,负责RODIN项目的微软亚研院成员几乎组成了“全华班”阵容。除了一名来自微软英国AI Lab的研究员外,其它论文作者全部是华人。负责撰写论文的两位共享第一作者Tengfei Wang和Bo Zhang更是从本土高校走出的高材生。
生产力革命:快、准、狠的3D生成!
从实效上看,相较于目前现有的3D建模方式,说RODIN实现了“降维打击”,并不算过分夸张。
在游戏领域,传统的手工建模无疑是应用最广泛的建模方式。其优点也十分突出:高度定制化、场景高度泛用、精细度上下不设限等等。在当代3A游戏中毫发毕现的3D角色模型,大多都是资深3D美术师在Blender与Zbrush中日以继夜精雕细琢后的成果。
但手工建模的缺点也同样突出:极度耗时。根据业界部分3D工作室给出的数据,一个商用的3D角色模型通常需要30-150小时才能制作完成,相当于一名建模师4-20个工作日的工作量。这对中小型工作室来说是不可负担的工期成本,也进而大大限制了游戏中可以加入的角色数量。
手工建模的高耗时缺陷让开发者们动起了脑筋。部分开发项目中会外购或者内部开发3D角色制作软件,其中的代表性产品包括Reallusion公司开发的Character Creator系列。这类软件允许创作者使用预设参数与系统对角色的外观等细节进行快速编辑与生成,在精细度上也可达到较高水平。然而,在可供选择的风格取向上不得不做出相应的让步。
此外,摄影测量法(photogrammetry)也是较为主流的角色建模方式。摄影测量法的原理十分直截了当,通过拍摄多个视角的照片测量出3D信息,进而生成3D建模。
日本MMA运动员朝倉未来在去年探访《人中之龙》开发组时就体验了一把”把自己做进游戏“:开发组利用数十台摄影机搭建成的3D摄影棚,在拍摄了几张不同表情的照片后,仅花三分钟就成功生成了一个3D脸模。
但缺点也显而易见:搭设3D摄影棚所需的软硬件与人员投入不菲,通常在百万级别。为了角色生成进行如此一笔大额的固定投资,很多工作室难以负担这笔开销。
每一种传统3D建模生产方式都有显著的缺点,而RODIN的横空出世几乎可以称为集各家之所长:论生成速度,RODIN并不逊于摄影测量法;论精度,可满足绝大多数工作室需求;论高度定制化,则更是压角色生成器一头。在易用性与使用门槛上,RODIN可谓是做到了极致。低廉的学习成本与极低的硬件成本让用户可以轻松利用自己的自拍制作独属于自己的3D模型。
而这一特性让其不仅可以在游戏、影视的领域进行运用,更是在数字化身(Avatar)这一元宇宙领域兵家必争的赛道上占尽了先发优势。目前,如Ready Player Me等公司都在为元宇宙时代的到来整理军备。或许在未来,借助RODIN的力量,数字化身的分发将会如如今浏览短视频一样不再拥有任何的门槛。
微软亚研院还在其文章中提及,尽管RODIN目前仅应用在3D半身人像的生成上,但倘若扩展训练集,这一3D扩散模型可以同样用于生成其它模型。
从AI画图到ChatGPT,再到可输入输出图片与视频的多模态大模型,AI领域在过去一年间的进步实在令人目不暇接。此次的AI生成3D模型更是象征着人类又解锁了AI科技树上的一大生产力分支。目前,各大厂商秘密进行的开发项目数不胜数,让GameLook对未来充满了期待。
如若转载,请注明出处:http://www.gamelook.com.cn/2023/03/512733