3年前即实现,游戏大厂痛失AIGC全球领导权,给中日韩业界敲警钟!
【GameLook专稿,未经授权不得转载!】
GameLook报道/由AI绘图带动的AIGC浪潮,在短短几个月内就席卷了全球科技产业。和过往一次次或长久,或昙花一现的互联网科技浪潮类似,以OpenAI为首、Stability AI、Midjourney等为代表的欧美公司,再一次凭借巨大的声量在此次AIGC浪潮中获得了“先机”,甚至已确立了AIGC领域的霸权地位。
而全球各地的其他科技公司,比如国内的百度、商汤、阿里等,在此次浪潮中的各种成果展示和应用,自然就被赋予了“跟随”的形象。
但其实在人工智能领域,亚洲公司并非慢人一步,包括百度的文心大模型、华为的盘古大模型、腾讯混元大模型、阿里的AI模型M6等,都属于全球超千亿参数的大模型。
特别是AIGC,当下互联网还在就商用版权以及人类画师权益而争吵时,国内外很多公司早已深耕相关领域多年。甚至有日本公司早在3年前,就推出过可以用于商业游戏开发和内容创作的AIGC画图工具。
早在2020年日本游戏开发者大会CEDEC2020的最后一天(9月4日),日本社交网络和游戏公司、《怪物弹珠》开发商MIXI公司就曾发表了关于自家CreativeAI的演讲,介绍了CreativeAI在AI绘图、3D角色生成等方面的探索和结果,但遗憾的是,鲜有媒体报道。
但为何在AI领域如此领先的日本游戏公司没有更早在全球科技行业掀起AIGC的波澜?日本公司痛失AI领导权,对于需要抓住此次AI革命的机遇的中国企业而言,又有何参考意义呢?
起个大早领先三年,MIXI的CreativeAI能力感人
早在2020年,GameLook就曾报道过CreativeAI的情况,想要了解Mixi演讲细节的可以自行搜索“AI自动角色生成如何实现?日本国民手游《怪物弹珠》揭秘”。
对于CreativeAI,根据Mixi当年的TA团队负责人长舩龙太郎和《怪物弹珠》主程序钱宇喆的介绍,在2020年9月公开演讲前,Mixi一共花了一年半的时间研究开发该AI工具,也就是在大概2019年年初,这家日本公司就开始了AIGC在游戏研发领域应用的探索。
长舩龙太郎当时表示,CreativeAI最早的目标应用场景只是高质量的游戏角色草稿的生成,通过与偶像生成AI DATAGRID合作,加上《怪物弹珠》自己的角色数据集,利用GAN模型以及其衍生的StyleGAN,CreativeAI也产出相当高质量的“怪物弹珠风”角色图像。
请问以下哪些图像是CreativeAI生成的?
左起第一行的第二、四张,第二行的第一、三张
要知道,OpenAI旗下的知名AI绘图工具DALL·E,最早公布也是在2020年初的一篇博文中。可见MIXI公司的CreativeAI在AI绘图领域一开始并没有太落后于这种专门的AI企业,甚至从其生成的成功质量可以媲美当下一众AI绘图工具来看,CreativeAI甚至当时具有一定的领先性。
更何况该AI早期学习的还是《怪物弹珠》和《交锋联盟》的图像数据,版权上均属于Mixi自己,避免了当下很多AI工具的版权争议,“守法意识”算是领先了业界。
2020年DALL·E生成的图片
后续通过将《怪物弹珠》的高分辨率人物画像与Danbooru2019数据库里相似的人形角色匹配,抽出数千张其他人脸的画像喂给AI,CreativeAI实现了更加风格化和创新性的人物画像输出,并且搭配相关的GUI工具,开发团队得以微调AI生成的结果。
如果说AI绘图还不够“先进”,在二次元角色生成方面,自2014年GAN模型被发表以来,市场上也已经有了WaifuLabs等相对出色的产品,那“3D角色生成”,MIXI公司的CreativeAI就走在了行业的前列。
对于该功能,MIXI公司的钱宇喆表示团队最初的理想就是输入一张角色图像之后,就能由AI自动制作出一个3D角色的系统。而通过与东京大学五十岚研究室的合作,以及对网易发表的将照片转化为游戏角色的AI系统的研究的参考,钱宇喆也在演讲中展示了Mixi的许多经验和方法。
至于结果,由于此前相关的研究大部分是研究从真人照片生成写实角色的方法,对于动画角色的研究很少,“目前生成的角色精度还很低”。
但要知道那只是2020年,时至今日,在AI模型方面,无论是OpenAI的Point-E还是英伟达的GET3D,即便是写实风格模型的产出,其展示的结果都依然还有提升空间。
护城河拦住了行业也封闭了自己
至于为何以MIXI公司CreativeAI为代表的日本科技行业,在过去几年里,在人工智能方面看起来被欧美等公司迅速反超,GameLook认为主要有内外两大因素。首先就是日本在新兴技术方面一贯的保守和封闭。要知道过去数十年互联网如此繁荣发展的一大原因,就在于植根互联网的开源共享精神。
通过最基础的技术(比如代码等)的开源,全球开发者都可以同步跟进某一个集体或个人的突破性成就,而如此大规模地关注,也可以让新技术的商业化落地更加迅速、场景更加多元化。
而Mixi对于AI技术的态度,依旧秉持着自产自用的精神,且不说代码层面的开源,当年CreativeAI公开时,官方的技术分享和交流渠道甚至不是Github这种开放的开源社区,而是一个Game AI Community的Slack频道。
在应用上,Mixi对于CreativeAI的期待也非常务实,能够让手游《怪物弹珠》的角色产出效率提高就好。
虽然站在企业的角度,选择不开源,继而用技术优势和专利为自己构建一道护城河,以及从自身业务出发探索技术的选择都很正常,但对于AI这种革命性的技术(2020年AI的潜力并非尚未发掘),还是只将目光着眼于自己的一亩三分地,多少就有些小家子气了。
这种小家子气,从眼前来看。不仅不利于外界了解企业在特定领域的成就、确立他们的历史地位,也不利于形成统一的行业标准和概念,推动更大规模的行业浪潮的发生,比如现在的AIGC。
AIGC的第一个独角兽“Stability AI”
要知道在本轮AIGC浪潮席卷全球的前后,最早一批崭露头角的企业,比如Stability AI、Midjourney等,都从资本和消费市场得到了巨大的红利和关注,有了更多进一步发展壮大的资本。
如果目光放向更长远的未来,这种行事风格的影响,全球恐怕没有企业比日厂经历更加深刻。
半导体方面当美国公司还在苦于AT&T对相关专利的垄断时,索尼20世纪50年代初斥重金就从贝尔实验室买下了相关的专利,使得日厂的半导体得以获得技术领先和专利优势。但一时的优势也让日本没有选择以开放的态度继续发展自己的半导体产业,而是设下必须公开芯片专利等严苛条件,阻碍海外半导体企业进入日本。
2019年NTT才宣布将于2026年3月停止i-mode服务
移动通信方面,1999年,由日本NTT发布的3G移动互联网服务平台i-mode以及搭载相关服务的设备,由于集成了移动支付等一系列服务,让日本的功能机iPhone发布之前的iPhone。但后续日本运营商却因为试图保证自己产品的特色,彼此之间选择相互封闭功能和生态,将本该连通的移动设备和生态打造成了孤岛。
结果大家都知道了,无论是技术还是专利打造的护城河,在这个讲究连通共享的互联网时代,都不算坚不可摧。
美国在20世纪80年代政府出面,通过钓鱼执法和贸易战等手段,直接突破了日企的“护城河”,后者被迫开放相关技术专利日本半导体行业自此一落千丈。iPhone的发布、谷歌将安卓开源等,更是利用一致化的体验和全球性的生态直接将当时的日本功能机赶回了日本本土市场,再也没有放出来。
切忌只着眼于结果,趋势和探索同样重要
当然除了日厂自己一贯的风格,正如前文所说的,在AI领域,中日韩企业早就有了很多积极的尝试和发力,Mixi的CreativeAI甚至学习了网易的相关技术和概念。而之所以目前依旧是OpenAI、微软、Midjourney等欧美企业和产品名声更加响亮,另一大原因则在于欧美媒体与亚洲媒体在互联网上的话语权存在差距。
一方面这与语言流通性以及当前搜索引擎、社交媒体平台等的格局有关。前者不用多说,后者则与过去数十年的政治经济格局等都有关。
20世纪80年代,通过对日本的打击,以及美国国内超级计算机和互联网基础设施的投资,包括对浏览器、搜索引擎和安全在线交易工具的开发的支持等,美国政府为美国商业互联网时代奠定了基础。2010年经济危机后,美国政府的量化宽松政策更是推动了硅谷迄今为止最长和最大的繁荣。
另一方面当然也和媒体的新闻取向有关。作为一家存在了十多年的新媒体,经GameLook的观察,中日韩的传统媒体与欧美媒体在科技等前沿技术方面的报道,最大的区别之一就在于亚洲媒体往往会更注重结果,大媒体或官媒对初创公司并没有那么感兴趣,只有当知名企业在相关领域取得一定成果后,大媒体或者官媒才会跟进,其他媒体后续才会大肆渲染、报道。
而欧美媒体由于无论是综合性媒体还是垂直品类的媒体,自由竞争的环境下,在话题和流量的争夺都要激烈得多,自然是相关领域一旦有风吹草动就一拥而上,并且为了流量,往往更加敢于下一些激进的判断。虽然这可能有损媒体的公信力和价值,但传播方面,自然会有更好的表现。
当然GameLook并不支持标题党、震惊党,但欧美媒体这种不只着眼于结果,关注趋势以及对一些还没有成就的技术探索的关注和报道,其实是值得学习的。
当然这种及时的前瞻性的报道,往往只有相关领域的垂直媒体才有能力和兴趣第一时间了解(当然也需要企业敢于展示自己),国内的媒体生态不妨多多关注这一类媒体的培育和成长,特别是一些国际化的新型媒体平台。在当下这个时代,抢夺互联网话语权的重要性不言而喻,不要让风只从欧美吹来。
要想崛起,心态就要开放
最后,对文章开始那个问题,“对于需要抓住此次AI革命的机遇的国内企业和科技行业而言,又有何参考意义呢?”GameLook相信,每个读者都有了自己的答案。其实无论是科技企业对待技术的开源心态,对待媒体的开放心态、媒体对待技术的及时多元关注,都在强调同一件事,那就是开放。
当然这种开放也并不是要求企业成为大善人,接济天下,但当下人工智能的发展前景早已不局限于游戏、设计、工业等单一领域,科技企业在保证自身利益的基础上,持有开放的心态,也更有助于发掘自家技术和应用多元场景的可能性。
特别是在一些掌握技术的科技公司不擅长的特定领域,开放甚至开源有助于培育开发者和应用生态,同时企业也完全可以通过更高级的服务和功能保证商业化运营。一旦相关软件和工具成为行业标准,企业开源的项目实质上就已经成为了一定程度的技术垄断。
开放、开源等精神,依旧是全人类知识积累、技术崛起的关键所在,不重复造轮子,站在前人的肩膀上继续攀登等对于社会资源、人力成本的节省,也给予了这些掌握顶尖技术的集体、个人更多创造奇迹的可能性。
如若转载,请注明出处:http://www.gamelook.com.cn/2023/03/511475