【GameLook专稿,未经授权不得转载!】
GameLook报道/智能NPC是国内玩家非常熟悉的AI应用领域之一,但真正能做的厂商却并不多。GDC2025大会上,腾讯RTC产品架构师Chen Jiayi分享了实时对话式AI(Conversational AI)赋能游戏NPC的实际案例。
该技术可以支持低延迟的AI语音互动,确保游戏过程流畅顺滑,并具备精准的语义理解能力,从而实现准确回应。在全球范围内,腾讯首次将大语言模型(LLM)与实时音视频(RTC)相结合,并应用于FPS游戏中的队友及自动交互场景,代表了行业前沿的AI技术探索。
以下是Gamelook听译的完整演讲内容:
Chen Jiayi:
我是Joy,负责腾讯RTC产品的解决方案架构,很高兴分享我们的对话式AI游戏解决方案。
先说今天的分享安排,我今天会谈到3个话题:首先是当今游戏业的对话式AI应用;其次,我会对GME做一个简短介绍,它是一个专门为游戏设计的游戏内语音聊天产品;最后,我会简单介绍一下我们的对话式AI解决方案在游戏之外的场景应用,比如客户服务AI。
需要提醒的是,有两件事我会提到很多,第一个是GME,指的是游戏多媒体引擎,这是我们专门为游戏做的解决方案。游戏场景之外,我会谈到TRTC,指的是腾讯RTC,即腾讯实时通讯。
对话式AI在游戏中的应用
近些年,我们都看到大语言模型(LLM)变得越来越能够参与到游戏流程之中,这改变了AI与玩家的互动方式。为了更好地理解这个领域,我们来看三个游戏关键场景中的不同应用:
第一个类别是AI支持的NPC,这是一个AI支持的、用于动态对话的NPC。英伟达的“Kairos Demo”就是该应用很好的案例。第二个应用就是AI如何担任游戏教练/助手,以提供实时训练帮助玩家提升他们的游戏技巧。比如Backseat AI就是一个AI助手,它可以分析玩法并且像教练一样分享洞察。
第三个类别展示的是《暗区突围》Demo,它是一个AI驱动的队友。在多人或合作游戏中,AI队友可以扮演很出色的玩家或者提供辅助。作为案例展示,我将在未来玩这个游戏Demo,而AI队友可以在战斗场景中帮助玩家。
1、AI NPC
在去年的GDC 2024大会上,育碧介绍了Neo NPC,这是一个使用内部引擎研发的AI系统,为了让NPC更具互动性并意识到玩家行为。这些NPC可以进行完整的对话并记住过去的互动,而非遵循脚本。
我记得当时展示的Demo中,当玩家与NPC聊天的时候,NPC能够发现玩家正在吃汉堡,在后来的对话中,NPC甚至还提到了这件事。这让玩家与NPC之间的互动更具吸引力,更加个性化,也更有意义。
据Inworld AI做的一份调查显示,99%的玩家认为更聪明的NPC可以提升玩法体验,带来更长的游戏时间和更多的消费。这真正展示了AI可以深化玩家参与度,同时推动商业化的增长。
但是,传统NPC的研发缓慢,且代价高昂。例如,《荒野大镖客2》用了8年的时间做了1000多个NPC,每一个都需要定制化配音和动画,这极大限制了游戏工作室对其游戏产品规模化的能力。
然而,AI支持的NPC可以通过允许无脚本的自然对话解决这个问题。在更好的玩法之外,AI NPC还可以带来商业机会,玩家也愿意为更智能的NPC支付更多,使得AI成为了更高收入、更好的留存率和新变现模式的关键驱动力。
这张图片中,我强调了支持AI NPC的四个技术组件:首先是开放无脚本对话,这可以帮玩家和AI NPC进行自然对话;其次是记忆功能,这意味着NPC可以回忆起玩家选择、偏好和过去的对话等细节。
第三是多模型表达。AI NPC远不只是文字对话,他们还会使用身体动作和面部动画,以带来更逼真的情感表达。最后一个是情感表达。AI NPC可以展示大量的情绪,包括喜怒哀乐等等。
这张图片中,我强调的是AI NPC当中的RTC如何与AI一起工作的关键技术点。它的基础,是先从游戏角色制作开始的,接着是脚本对话,最初的对话是为了定义故事线和必要的故事情节,作为游戏剧情的框架。
随后来到第三个部分,它包括STT、LLM和TTS,STT代表的是语言转文字,它可以把玩家说的话转化为文字,然后交给LLM生成反应,TTS(文字转语音)会将生成的文字转化为语音,以传递AI实时生成的语音。随后,使用面部驱动同步唇部动作和带面部表情的语音,带来真实的的角色反应。
然后,转向美术生成,最后是渲染环节。最后一个阶段打磨NPC的视觉效果,并将他们无缝集成到游戏环境中。
2、AI游戏教练/助手
接下来说的是第二种应用,AI教练或者AI助手,当然,有时候我们也把它称之为AI伴侣。
这里我将展示Backseat AI与知名主播Tyler1互动的一个Demo:
这是展示Backseat AI通过AI驱动的游戏教练带来强大游戏体验的案例,它可以在你玩游戏的时候提供实时洞察,策略和提示。它集成到了《英雄联盟》等游戏中,分析玩家决策并提供站位、目标和战术方面的指引。
与静态的新手教学不同,Backseat AI可以为每一个玩家带来动态化和个性化的训练,Demo当中实际上还有一个主播,想象一下,如果他们可以说韩语或者中文,那么这个工具就可以专门为你提供训练指引,让游戏学习变得吸引人和具有沉浸感。
另一个案例,微软的Copilot作为一个多功能AI伴侣,为玩家带来游戏内策略和之外的帮助,集成到了PC当中,并兼容《我的世界》这样的游戏。你不仅可以回应玩家请求,还可以建议制作配方、调整系统设定,甚至是优化性能。
展望未来,我们可以看到AI正在通过提供实时支持来改变玩家学习和适应游戏的方式。它可以运用在个人训练中,帮助玩家学习游戏机制,在新玩家指引中得到游戏内提示与反馈。另外,你还可以用在英雄学习中,帮助玩家掌握特定英雄,团队合作可以提供实时战术建议。
这张图片中,我列出了我们在AI训练场景取得了进步的三个核心区域。
我们先说理解,过去,理解需要切入语,比如“hey Siri”,而且它需要精准指令语。然而现在的环境可以进行实时语音互动,它还能懂游戏黑话。
语音方面,过去配音是比较呆板的,而且呈现的语音无法进行定制化,只能支持预制的语言,而非玩家所在地区的语言。然而,当前解决方案引入了语调和情绪控制,让AI语音听起来更自然且更有吸引力。
另外,有了语音克隆,玩家们可以使用语言互动沉浸在玩法中,比如他们喜欢的主播声音,就像前面案例中的那样。
图片底部展示的是应答流程:当玩家提出问题的时候,系统首先将请求转化为一个矢量呈现,然后用嵌入模型,它会在一个矢量数据库内搜索,其中包括静态游戏知识和动态游戏知识。静态知识包括游戏策略和机制,动态游戏数据包括了实时匹配数据。
如果直接答案可用,它就会被提取并提供给玩家。如果不能,系统就会部署RAG,这通过允许更多高级LLM检索外部数据库的方式增强了反应的精准度。通过用预训练知识和实时洞察这样做,AI助手可以提供推荐并带来有关联且个性化的指导。
3、AI队友
我们来到第三个场景,也就是AI队友场景。
可以看到其他队友总是在说收到,意思是他们收到了指令。
这里,我会谈到AI队友处理指令的整体工作流。第一步是玩家指令,这是从玩家发出语音指令开始的,例如让他们的AI队友移动、找到一个物体,或者提供指引。捕捉到音频之后,它会通过ASR(自动语音识别)进行处理,也是语音转文字的。
然后进入第三步,一旦语音转化为文字,它会与实时游戏数据配对,并发送给一个LLM。后者用游戏上下文环境分析指令,确保它理解玩家的意图。
第四和第五步,系统通过商业逻辑处理请求,将其分类为基础或特定指令,随后准备队的反应。到了第六部,指令会分发给一个AI队友,并让他们执行下一个行动。
第七步是指令分解,这是分析指令的过程,然后把它们拆分为能够让系统理解和执行的有结构、可行动的元素。一旦指令被分解,它就可以被转化为游戏特定的AI行为。
随后,即时语音反馈会使用TTS给到玩家,他们会给出即时反应,如“收到”、“了解”等等。然后到第九步,AI队友会根据对应游戏逻辑执行,这时候指令就变成了真正的实时游戏内行动。包括移动到特定位置、参与战斗,或者基于游戏环境做出战术决策。最后,再次使用TTS,玩家可以收到反馈结果
这个系统可以让AI队友动态化辅助玩家,带来感觉更自然、更符合上下文环境的语音互动。
腾讯游戏内语音聊天产品GME
我们看到了对话式AI是如何改变游戏的,通过增强NPC互动、提升AI队友表现,并在游戏活动内带来更真实的实时沟通。但是,如果没有底层技术支持实时语音互动(RTC),以上这些就都不可能实现。
这就要提到GME,我们的游戏内RTC引擎,扮演了至关重要的一部分。在游戏场景中,无缝沟通是团队协同、策略和沉浸感的关键,GME就是这个一站式游戏语音解决方案,以两种不同方式支持实时语音聊天和语音信息。
第一种是语音聊天,它支持3D空间音频效果,让玩家通过直接的语音来侦测队友和敌人,在FPS、TPS和社交推演游戏中增强了真实感,它还根据距离在游戏内调整声音。
语音聊天中,它还支持语音变声,最高100多种不同特效,你可以安排多房间支持组队或小队沟通。它还可以实现大型多人语音支持,最高支持1万名玩家实时沟通,这意味着它特别适合大型战斗和元宇宙活动。
右边是另一种形式,被称为语音信息,最长支持60秒语音,并且可以支持语音变声。
GME还有额外的能力,如125个不同语言的实时翻译,还包括语音转文字、文字转语音、音频录制和DIY语音变声效果等功能。此外,它可以运用于不同的游戏场景,包括FPS、TPS、MOBA、MMORPG、桌游、VR、AR游戏和元宇宙。
最右侧,我强调了几个GME功能和性能数据,首先是低时延,我们可以把时延降低到300毫秒,相当于一眨眼的时间,确保了实时互动。其次,我们还可以预防网络问题,哪怕是丢包率达到70%依然保持高品质沟通,我们还有24/7客服、全球覆盖以及多平台支持。
展望未来,我会谈谈GME如何在游戏中带来实时语音沟通,通过游戏内语音频道,GME支持多房间切换,所以玩家可以无缝切换道不同语音聊天室。它还可以运用到团队战斗或者游戏指挥等场景,或者在大厅聊天以及一对一私聊。
或者,对于更大的场景,如大型互动直播,GME可以支持数千名玩家在大型活动中或者虚拟音乐会中交流。
图片下方的表格中,我放出了流程,你可以看到GME是如何带来实时语音交流的。从发送者到接收者,我们基于客户需求使用不同的SDK,不管是UE、Unity还是Cocos。然后使用这些SDK捕捉语音数据,随后发送到媒体服务器,进行处理和转化流程,接着语音数据就发送给了接收者。
我们还与VoiceMod进行合作,另外,还想要强调的是,我们与Audiokinetic进行合作,我们的GME可以无缝与Wwise集成。
接下来,分享一个案例,展示GME插件如何与Wwise无缝合作带来先进的语音聊天技术。
体验了《Darker and Darker》的玩法之后,很多用户讨论说游戏语音技术让游戏变得更好,增加了紧张、真实和深度的合作体验。
在这款游戏里,有两个主要的语音解决方案设计,包括:1)团队语音聊天,让队友之间进行协作,2)近场语音聊天,可以让玩家听到附近其他小队的敌人。
在这个案例中,GME插件可以无缝与Wwise连接,简化了不同场景的语音部署流程。
接下来,我想要强调的是为何客户选择了我们的GME产品。我们的GME为多个平台提供SDK,包括Windows、Mac OS、iOS、安卓、Web、Cocos、虚幻引擎和Unity。它给开发者带来了集成语音交流的灵活性,不管他们的游戏选择了什么平台或者引擎。
与此同时,它对于跨平台也是友好的。GME移除了平台障碍,让玩家不论在哪里游戏都可以交流,不管是PC、主机还是移动设备。该系统支持PS4、PS5、Xbox、Switch、Windows、安卓、iOS和网页端,使之成为了真正的跨平台解决方案。它还兼容VR/AR设备。
对于实时交流,全球覆盖是至关重要的,我们的产品在21个区域运营,在50个区域可用,为全球玩家提供高速、低时延连接。通过在70个不同国家的3200多个加速节点,玩家们可以自动连接到最近的GME服务器,将时延降到最低。
这张图片,展示的是F.A.C.U.L.引擎,全称是First-Every FPS AI Companion Who Understands Human Language。这是个很有趣的命名,将会在未来部署到《暗区突围:无限》之中。
它在幕后是如何运作的?这就用到了GME。
右侧这个工作流程图描述了玩家是如何与AI队友交流的,首先,玩家说话的时候,SDK会捕捉降噪和去回音的语音,然后这个语音通过云端传输,确保极低的时延和超高的质量。
接收之后,AI管线实时处理数据,ASR将语音转化为文字,让它生成反应,TTS可以让AI说话。然后,这个反应会通过云端返回玩家那里,将对话时延保持到最低。
这是一款利用了GME的游戏,名字叫做《Suspects:Mystery Mansion》,是一款由Wildfire Studios研发的多人推理游戏。在这款游戏里,玩家扮演动物角色,一起来找出谁是谋杀者。这款游戏与同品类游戏最大的不同在于,它带有内置语音聊天功能,我们的GME产品在其中扮演了很重要的作用。
对于这款游戏,有非常具有挑战性的需求,我们一起解决了这些问题。首先,玩家的语音会根据游戏内状态发生改变,我们的产品提供灵活的语音频道管理,适应了这种动态化需求。
另外,我们提供高质量、低时延的交流,让游戏里的指责、辩护或者虚张声势都可以被实时听到。此前,Wildfire Studios也分享过GME给游戏带来的帮助,我们对此感到自豪,并且将继续与客户一起成长。
对话式AI解决方案
最后这个部分,是我们的对话式AI解决方案,非常适合客户支持场景,还能运用到游戏之外的场景。
这是我们的实时对话式AI解决方案的基础技术结构,左侧是一款应用,不管是软件还是在线应用,都可以与我们的SDK集成。它捕捉玩家音频并发送到我们的TRTC全球网络,收到语音之后,就会经历4个处理流程,我在前面已经讲过好多次。另外,LLM和TTS都可以是来自第三方的,取决于你的需求。这个过程完成后,会发布到我们的TRTC全球网络。
这是使用我们自己的LLM和TTS的时延性能数据,我们可以看到,STT、LLM和TTS依然是对话式AI中时延的主要原因,如STT的时延为300毫秒,TTS时延200毫秒,这是时延主要的来源。但我们可以做的,就是以流畅的方式做到端对端交流,可以看到,总时延为1000毫秒。
以上就是今天分享的全部内容。
如若转载,请注明出处:http://www.gamelook.com.cn/2025/04/568846/