建模师也危险了?OpenAI公布Point-E,AI迈出“生成3D模型”第一步

【GameLook专稿,未经授权不得转载!】

GameLook报道/刚刚用ChatGPT在全球掀起AI狂热的OpenAI,时隔三周就又拿出了最新的“科技与狠活”?本周,来自OpenAI的研究者正式发布了该公司最新的文字生成3D模型实验技术Point-E,并在GitHub上公开了项目的源代码。这意味着这家AI巨头的业务版图在文字、音乐、图片等领域之外,又开辟了3D模型生成这片重要的疆土。

事实上,AI生成3D模型技术在市面上已经出现过一波井喷。在元宇宙概念如日中天的如今,多家行业巨头都认为在全真互联网时代,人类对的3D内容的需求将大幅膨胀,进而寻求借助AI帮助人类实现超高效的3D内容生产。谷歌在今年10月发布的DreamFusion和英伟达在11月发布的Magic3D等技术都是文字3D模型生成赛道上的前辈。如今OpenAI的入局,又会为这一赛道带来怎样的新风呢?

专注高效的Point-E:竹杖芒鞋轻胜马

但正如OpenAI在此次的论文中所指出的,市面上的文字生成3D方法无一例外都有生成速度缓慢的缺点,生成单个3D模型的耗时常须以小时记。而OpenAI所打出的差异化口号便是一个字:快!OpenAI声称,利用单张显卡,Point-E仅需几秒到几分钟就能产出一个3D模型。英伟达的AI科学家Jim Fan在推特上表示,POINT-E的生成速度约能达到DreamFusion的600倍。而POINT-E中的字母E所代表的正是效率(Efficiency)。

实现这一成果的方法是“剑走偏锋”。OpenAI的科学家结合文字生成图片和图片生成3D两类模型,提出了一类全新的3D生成方法。Point-E所产出的并非为可供直接渲染的3D网格,而是3D点云(Point Cloud)。

而在具体操作上,Point-E会利用三十亿大模型GLIDE将文字指令转化为一张”预览图“(Synthetic View),相当于利用文字生成图片技术为AI提供一张2D的参考范例。随后在该预览图的指导下,利用扩散模型生成一个1000个像素点的RGB点云。最终,Point-E以低分辨率的点云和预览图为条件,利用上采样(upsampling)技术将该点云进行进一步精细化,到达拥有4000个像素点的精度。

这一生成方式的缺点是十分明显。首先,OpenAI就在论文中承认,利用该方法生成的模型精细度不高。GameLook试玩了OpenAI放出的试用demo。这个demo所运行的是Point-E的弱化版本——但即便将这一点纳入考量,最终的生成产物还是过分抽象了。

下图是Point-E绘制的救护车,我们可以从大体上看出轮廓。

输入文字指令”An Ambulance“生成的救护车点云模型

这张则是利用”图片转3D“功能,在上传经典角色超级马力欧概念图后生成的点云和网格化模型——老任法务部看了直呼束手无策。

 

 

此外,OpenAI还表示,系统在解析预览图时可能会误解物体的实际比例,导致生成的点云模型比例失调。使用该方法生成的点云还需进一步网格化才可投入使用,这也是潜在的缺陷之一。

但另一方面,Point-E在完成它所专注的目标——快速——方面,可是一点都不打折扣。论文的统计数据显示,在使用单张V100显卡的情况下,DreamFusion等主流算法需要高达12-200小时的计算时长才能产出一个3D模型,但Point-E仅需1-1.5分钟就可利用文字生成3D模型。提升产出效率两个数量级。GameLook在试玩中发现,每张图片的生成时间通常仅为2-3分钟。

诚然,在这个阶段对Point-E的生成质量进行挑剔显然有些苛责,毕竟该技术和相关研究还明显处于早期,未经过多迭代——回望DALLE刚刚推出之时,也有不少人诟病其产出扭曲怪异。而在更标准的生产环境中,Point-E的产出还是相当标致的。

此外,即便”元宇宙时代“人类对3D环境的观感十分注重,但高效的产出同样也是各大厂商决胜的关键。OpenAI所采取的速度优化之道,同样也是启发未来的另一条重要思路。正如OpenAI在论文中所提的:”尽管生成效果相较最先进的算法并非最佳,但所使用的时间百不及一,这能够让应用场景变得更加可行……我们希望我们的论文能够抛砖引玉,启发文字合成3D模型领域的更多研究。“

业界热议:Point-E到底有多大能量

OpenAI的这篇研究一经公布,立刻在各大AI观察者圈子中引发了热议。前文所提到的英伟达AI科学家Jim Fan博士在看到Point-E后激动地表示:”2023年将会是强大的AI生成3D模型之年,而2D将会是他们的投影!“Jim Fan表示,他十分期待看到3D版的Stable Deffusion和Midjourney上线,未来的市场竞争将会十分激烈。

一名3D艺术家@zer0int1在安装了”满血版“Point-E后进行了一个小测试。他首先参考了一张原画并自己制作了一个3D模型,随后利用Point-E生成的模型网格化后进行了对比。他表示:”虽然我‘赢了’这场对决,但我不知道我应该感到高兴还是失望,毕竟我花了两个半小时才建好这个模型,但AI只花了两分半!“

在GameLook所浏览的各大论坛中,不少技术开发背景的程序员、艺术家等都对这项技术表现出了浓厚的兴趣,并前去体验了Point-E的demo版本。在Reddit的r/StableDeffusion板块,更是有网友高呼神迹:”等到2030年OpenAI还会干出些啥?我2022年的原始人脑袋已经完全想象不出来了。“

不过,与此同时也有一部分声音对Point-E提出了质疑,其诟病的点主要在于较低的生成精度和较低的实用度。但正如前文所说,这并非OpenAI的实验所要达成的目的。

我们离AI真正加入人类创作还有多久?看似近在眼前,但也似乎遥不可及。一方面,以GPT-3为代表的AI文字生成技术和Midjourney等代表的AI图片生成技术,似乎已经能够产出让人满意的结果了,且迭代速度之快超出了我们想象。但另一方面,AI作品在连贯性、可读性上依然无法与人类相提并论,Point-E的产出也显然还达不到商用效果,更不用提AI训练中所包含的版权保护等新时代法律问题了。

而随着相关产品的日渐增多,AIGC领域的竞争日益升高是我们所乐见的结果。只有通过不断地迭代,我们才可能在技术的碰撞之中不断突破技术的边界。GameLook有信心,AIGC一定会在不久的将来以更圆滑的形态与我们的内容生产融为一体。

如若转载,请注明出处:http://www.gamelook.com.cn/2022/12/506085

关注微信