TGDC | 腾讯游戏AI研发中心总监付强:从绝艺到绝悟到开悟,AI技术助力科技向善

GameLook报道/2021年11月22日-24日,由腾讯游戏学堂举办的第五届腾讯游戏开发者大会(Tencent Game Developers Conference,简称TGDC)在线上举行。

本届大会以“Five by Five”为主题,邀请了海内外40多位行业嘉宾,从主论坛、产品、技术、艺术、独立游戏、市场及游戏社会价值7大专场共同探讨游戏产业趋势和多元价值,以开发者视角与需求为出发点,助力游戏行业良性发展,探索游戏的更多可能性。

在第三日(11月24日)的活动中,来自腾讯AI Lab游戏AI研发中心的总监付强向我们分享了如何从游戏角度研究AI技术,列举了“绝艺”、“绝悟”等AI项目在游戏中的应用和制作过程,并将AI技术用之于社会的各个领域之中。

以下为演讲实录:

付强:大家好!我是腾讯AI Lab游戏AI研发中心的付强。今天很高兴参加2021年的TGDC,然后以这样一种形式给大家做一个分享,我主要是介绍游戏AI相关的东西。

今天我给大家分享的题目是:从绝艺到绝悟到开悟,AI助力科技向善。

今天主要分享的内容分成三个部分,第一个当然先介绍一下腾讯AI Lab;第二块的话从现实到虚拟,我们要讲一下游戏是AI研究的最佳场所;然后,第三部分是从虚拟回到现实,AI的技术助力科技向善。

腾讯AI Lab的话,我们大概是成立于2016年,是个公司级的这种实验室,我们现在大概有500多人的规模,有25%是博士。

可以看到我们的这个组织架构。我们从底层来看,按传统AI基础分类有计算机视觉、语音技术、自然语言处理、机器学习。再往上的话,技术应用的话我们主要聚焦在游戏、社交、内容、平台四个方面。再往上的话就是我们的行业应用,包括像医疗、农业、工业还有虚拟人的技术。

然后,这个是我们关于游戏和医疗的一些核心里程碑。从2016年4月份我们成立之后,首先在2017年3月份我们的游戏围棋AI“绝艺”,当时夺得了一个世界冠军,当然在之后的几年也夺得了多个世界冠军,从2017年3月份。然后另外一个是2019年的8月份,我们的《王者荣耀》AI“绝悟”达到了一个职业电竞的水平。然后在去年,2020年8月份我们的“开悟”平台组织了第一场“开悟”的高校比赛。

从医疗角度来看的话,我们是2018年10月份当时拿了一个医疗器械,一个医疗显微镜病理研究的项目,然后在去年的7月份,我们发布了云深的制药流程,就是说去助力整个制药流程,去提升它的效率。

首先,最重要的我们讲一下是:从现实到虚拟的角度来看,游戏是AI最佳的研究场所。

我们可以从这个图可以看到,其实任何一次AI技术的突破,都是解决了游戏中重要的问题。

不管是从1997年的深蓝在国际象棋上战胜职业冠军,还是到2016年的Deep Mind的AlphaGo战胜了李世石,包括过去几年的话,可以看到不管是在Dota还是在Alpha Star,甚至在我们的非完全信息上:德州、麻将上其实都取得了重要的突破。

对应到的游戏AI的技术,可以看到,实际上在游戏诞生之初,就有游戏AI,只不过传统的游戏AI,包括现在大部分的游戏也是用的叫基于规则的AI,我们这里举的例子,比如行为树,就是一种应用非常成熟的一种技术。

它的好处是什么?好处是它的规则是很明确的,任何一个不懂算法或者不懂程序的人,他也可以写出这种规则。然后它的问题是什么?大家也比较好理解,因为随着游戏越来越复杂,它的体验是比较单调的,它的反映相对来说是不足以支撑这种复杂的场景。

除了传统的这种基于规则的AI之后,现在的AI叫基于学习的AI。这里面有两个主要的技术,第一是监督学习,第二是强化学习。监督学习顾名思义,它就是是参考人类的数据去学习这个行为,它的好处是其实我可以做得足够拟人,有分成各种等级的难度,我都可以很容易达到。但它的问题是非常依赖于数据的量和质,就是说我要足够的数据才学出好的行为,第二个我需要各种质量的数据,各种级别的,要足够好的质量数据。

第三就是刚刚讲的强化学习。强化学习是现在大家听得比较多的,它相对于模仿学习和监督学习来说,一个核心点是它不需要人类数据,它是通过游戏自己跟自己玩,这样去不停的迭代、去生成自己的策略。

这个其实跟人的学习是有一点像,就是一个试错,然后再改进的过程。这个好处是这样,但现在其实它也面临很多问题,后面大家可以看到,它的学习效率相对人来说还是比较低的,并且这里面理论上还有很多困难的点,等待着我们去开发。

我们提到游戏为AI提供了重要的研发环境,它主要有三个特点,在我们看来,竞技游戏第一个,所有的竞技游戏都是有明确的胜负指标,包括中间的核心指标,所以说,当有明确的指标的话就便于我们去测试和迭代。

第二个点也是很重要的,就是虚拟世界,我们可以获取海量数据。不管说是获取人类自己的数据,还是通过它自己对战去生成的数据,从这个角度来说,其实比现实去获取这些数据,它的成本、其迭代的效率会高很多。

第三点的话就是现在研究的热点,学术的前沿,比如智能的复杂博弈、多智能体的研究,在竞技AI里面都是一个非常好的载体。所以从这个角度来说,游戏为AI提供了最佳的研发环境,会给大家讲一下我们做的“绝艺”和“绝悟”相关的游戏进展。

“绝艺”的话,其实我们最早从是围棋开始的,它的主要路线是不断去提升AI策略博弈的能力,在围棋过去3-4年已经累计夺得了五个冠军,现在也是国家队的专业陪练。然后现在的围棋AI它已经远远超过人类顶级的职业水准,所以说我们现在除了支持中国规则之外,我们也支持日韩的游戏规则。

另外一个,因为超越人的水平,所以说我们也支持了各种像“让先”、“让子”的规则。所以从这个角度来说,我们的核心技术,里面引用了迁移学习去提升相对传统的AlphaGo算法,我们会有几倍效率的提升,并且我们可以支持动态的贴目算法,可以让它实时的,比如你希望让几步棋,这种规则我们都可以实时支持。并且我们引入联合建模,可以支持不同的规则,并且让它的策略达到多样性。

这个视频的话是我们跟腾讯Robotics X的合作,做的是以围棋“绝艺”为策略,以Robotics X做的机械臂的机器人为载体,就是让一个机械臂去下棋。这个在滨海(腾讯滨海大厦)其实是有这个东西,大家有兴趣可以去看一下。

做了围棋之后的话,我们其实后续沿着“绝艺”这条线,因为是要逐步去挖掘AI的策略博弈的竞技能力,我们也做了象棋,包括国际象棋和麻将。

这里面为什么会提到麻将?因为麻将相对围棋来说,它的特点是非完全信息。翻译成白话来说,是围棋的局面大家都是能看到的,而麻将的话,我的手牌对手看不到,而其他三个人的底牌你是看不到的,所以这里面就有一些猜测和非完全信息的推理过程。

其实麻将通过差不多有过去两年的迭代,在两人麻将上已超过职业水准,在四人麻将上我们是业界首个在国标上达到职业水准的麻将。然后我们在去年的IJCAI麻将AI的比赛里面也得到了冠军。

那么,它相对于围棋不一样的地方在哪里呢?主要有两个点吧。第一个点是它本身相对围棋来说或者其他的游戏,比如像MOBA类的游戏来说,它更多强调的是一个强度,而这种非完全信息它强调的是博弈能力,这个在我们术语上叫做抗性或鲁棒性。

所以说我们从鲁棒性角度来看它需要什么?它需要见过各种各样的对手,它有个自适应能力,所以鲁棒性训练是一个特点。第二个特点是非完全信息,既然我不知道对手的底牌,那我们的这种建模,就是我要引入对手的建模,并且引入非完全信息的搜索。可以看一看这个视频是随着时间的演进,我们麻将能力的提升,其实可以看到国标是有很多种番形的胡牌。

其实在第一个阶段,它更多学的是我这个牌,当前离我这个胡牌的最短路径是什么,随着学习的过程,我们引入了完全信息的搜索,让它知道除了胡牌之外,可能我这一块还要考虑到对手的可能性。

第三个就是引入了对手建模。这样的好处是,比较好理解嘛,即每个人会有一些风格变化。比如你是做大牌的人,还是做马上胡牌的人。所以针对这一块的对抗,我们其实通过每个阶段,随着时间的演进,它的能力在逐步的提升,基本上我们到了第三个阶段之后,它的攻防——因为有对手建模——它的攻防这一块是比较好,所以目前来说是具备达到职业选手的水准。

讲完了“绝艺”之后,我们讲一下“绝悟”。

“绝悟”大概我们最早是从《王者荣耀》的MOBA游戏开始,它相对于“绝艺”来说,它的侧重点也好理解。“绝悟”《王者荣耀》它是个5V5的游戏,所以它的切入点是从多智能体AI,并且它面临的是更多的复杂环境,而不像前面棋牌类更多是个回合制,相对来说它的环境比较简单。

所以从这个角度,目前我们的一个水准,通过几年的迭代,我们现在基本上《王者荣耀》大概有110多个英雄,现在我们在全英雄池上,能达到跟KPL对局的话,KPL的选手对局一个BO5的比赛,我们基本上可以超过职业选手的水准,战胜职业选手。

另外的话,其实在每个周期里面,我们可以看到在《王者荣耀》的游戏里面有一个“绝悟”挑战,我们的数据是,“绝悟”开放试验的胜率现在大概可以达到98.2%。

我不知道大家有没有疑问,只有98.2%而为什么不是100%?其实可以想象,我们是出的英雄,是覆盖各种英雄、各种组合以及各种打法。现在的这个胜率,当然我们还有改进空间,但98.2%相对人来说也是一个相对绝望的数字了。

它的核心的演进的话,核心也是两个。第一个是说我们要构建多样化的打法,其实《王者荣耀》里面除了常规的打法之外,我们也要学习到大乔流、野核流、养猪流、推塔流各种流派。我们只有学会了这些流派我们才能去对它有一个适应性,其实也是它策略的鲁棒性的一部分。

第二个就是课程学习。《王者》有100多个英雄,如果我全部去学的话,其实需要很长的时间,我们也是从简单到复杂的过程。比如最开始我只学一个英雄,我然后学五个英雄,然后5V5、学十个英雄,然后再逐步扩展到多个英雄,并且做了一些知识蒸馏、知识迁移的方法。让它学习的周期——像OpenAI,它在十八个英雄池上,大概要训练几个月,而我们现在差不多110个英雄池——整个周期可能就两周不到,可以看看这个视频。

这个视频其实也是随着时间的演进,对我们AI能力的提升。其实可以看到第一个阶段是固定阵容达到职业水准,它从零开始学,最开始它还只能在泉水;学到两个小时的时候,它可以打赢内置的规则树的AI;学到20个小时的时候,它基本上可以达到《王者》的水平。可以看到它有一些GANK,有一些对线的过程。

当100多个小时的时候,其实这是2019年8月份跟KPL职业联赛联队的一个测试,基本上它能在固定阵容上,它能比较容易的打赢职业选手,可以看到它的团战,控制链的连接,包括相应的扛塔、推塔的能力,它有大部分的提升。

所以这个阶段我们是在一个固定阵容上,引入深度强化学习,从零开始,这种探索能达到的,后面持续的是我们能把英雄池,从十个英雄池拓展至一百多个英雄池,这里面并且会有一些多样性的分析,其实这个是逐步达到在全英雄池上,达到或者超越KPL职业水准的能力。

比如这个视频是我们今年2021年8月份跟KPL职业顶级选手的BO5的部分视频。可以看到,虽然说它的能力看起来好像很强,但实际上我们现在大概推算了一下“绝悟”现在一天的训练量,相当于人打了150年,而我们差不多在12天左右才能达到,12天相当于人1800年,才能达到全英雄池,达到或者超过职业水准,所以这里面的效率空间还是有很大的。

然后,强调《王者》的这一块后,我们很自然做了《星际》。

为什么要做《星际》?因为《星际》来说它面临跟《王者》不一样的地方,它其实是面临着更多的智能体。因为玩过《星际》的人都知道,我们要操作的单元会有上百个。第二个的话这其实是更强调兵种克制的这种游戏,所以我们现在的《星际》,虫族可以达到Grand Master,在神族能达到Master的一个水准。

目前来说它相对于之前《王者》的难点在于,它需要更复杂的兵种克制的判断,包括一些迷雾的这种判断。第二个就是,很重要一点的是,我的策略强度的提升。可以看看这个视频,这个视频是我们简单把它分成两个阶段。

第一我们要去构建有多种多样策略的概念,这里面有两个概念,一个是Main Agent是类似于我们的种子选手。另外一个概念是Exploiter,其实就类似我们的陪练。

就是说你的陪练能否去构建武林十大门派的打法,然后我的种子选手可以跟所有的武林十大门派都能打赢或都能打的话,这样你学到的就是一个均衡的策略。这样你就不至于被一些怪招克制,所以第一阶段是去生成多种多样的打法,现在我们可以做到只要指定这个打法它就可以学到。

第二个阶段就是,你可以看到这里面有一些策略强度更高,有一些策略强度没有那么高,它需要去做一些优胜劣汰。

这样的好处是你的陪练水平高,举个例子,比如类似于中国队乒乓球,它队内的练习赛有很多陪练都是模拟主流的各种、各国的打法,如果说水平越高,那相对应的你受的训练就会越好。我想这也是一个高水平团队,跟其他比的话,这是一个核心的竞争力。

所以其实我们在学《星际》的时候也是在往这个方向走的,就是要陪练和种子选手的体系,要构建多样性。第二要提升这些陪练的强度,这样种子选手的能力才会提上来,对,这就是我们《星际》层面的核心点。

第三个是足球,为什么会做足球?因为足球是代表了体育类的一大类游戏,它也是多智能体,足球场上是11V11,篮球比如是5V5,这个我们基本参考了谷歌Football Play的环境,然后我们在它的天梯上是排第一,包括去年的Kaggle的比赛也是战胜了多个对手,获得了冠军。

它相对于之前的特点,第一个是足球,大家好理解吧,足球场上只有一个球,如果你去学策略的话,核心不是带球这个人的微操,比如这个人如果像梅西,可以过很多人。更多你要学无球人的这些能力,比如无球的时候它怎么进攻、它怎么跑位、怎么防守,这种能力其实是不好学的,只要是做过这一块的人,大家应该有概念。

另外足球是有角色的分化和演化的,因为大家尝试就知道了,有前锋、有中场、有后卫,包括它有阵型,比如说442、451。

所以说,从这个角度,其实我们可以简单看一下,它从零开始学的时候,它也是参考人的思路来的。最开始,你可以看到右边是球的方向,最开始完全没有知识的时候,它自己玩的时候其实是乱踢,慢慢的它会找到一条好的路径就是单带,这个好理解吧,就是一个人带球,像梅西一样,你学到了很丰富的个人技巧,这是最高效的,慢慢的它会学到各种各样、其他的进球方式。比如边路传中、中路、长传冲吊,当然我们现在最新的进展是,我们可以控制它有各种阵型的打法。

讲了这么多,其实我们把“绝艺”和“绝悟”合起来看,是什么意思。

我们从两个维度来看,第一个维度就是强度的角度。其实传统的游戏像围棋,包括MOBA,我们更多看中强度,但随着非完全信息或者信息的隐藏。包括像《星际》、麻将,这种它的策略的东西是越来越重要的,包括多人。

另外一个维度就是智能体,这个好理解,围棋就是1V1,多智能的话比如RTS,甚至要控制几百个智能体,从智能体是从少到多,所以我们认为竞技AI未来的方向一定是更多的智能体、更强的策略博弈以及更复杂的交互环境。

包括像现在比较热门的开放世界、3D大世界,所以我们认为竞技AI、“绝艺”、“绝悟”,最后发展成一个通用的竞技AI一定是处理这三个更复杂的维度。

提到“绝艺”、“绝悟”之后,我们也提一下“开悟”。

“开悟”这个东西到底是什么,其实我们在做游戏AI过程中,我们沉淀了我们的平台、我们的算力、我们的算法、我们的数据、我们的场景,所以我们想这些能力能不能做一些开放。

所以基于这个初衷,最开始我们是和《王者荣耀》合作,把《王者荣耀》的这个环境能做一些开放,把我们的平台和算力包括一些算法开放给学生、学术界,让他们在上面能不能做一些,比如我们刚刚所说的智能体、多智能体的博弈的相关课题的研究。

所以结合这个的话,我们是从2019年的5月份开始做这个事情。在去年8月份到12月份我们举办了第一届“开悟”的高校大赛,当时基本上是国内最顶尖的20所高校和研究所来参加了,然后今年的9月份我们举办了第二届,包含像中国香港一些学校参加了。这个初衷是,当我们已经有了这方面的积累后,我们能不能把我们的平台、算力以及多智能体对抗的场景贡献到业界,这就是产学研的做法。

“绝艺”、“绝悟”、“开悟”讲完之后,可能也会提一下游戏AI它的应用。其实我们现在的认知,因为时间关系可能我不会展开,其实我们目前的认知主要在三个方向。

一是AI Bot,AI作为玩家。大家在游戏里面有一个PVE,即人和电脑去对决,而电脑这个层面引入了AI的Bot,它的体验的丰富度、可玩性会高很多,这也可能是未来游戏里面的一种核心玩法。当然另外有一些比如像平衡性测试,这里面都是核心的用处。

第二的话就是游戏的制作,因为现在的UGC的内容生成,特别像特别是3A大作,其核心的资源投入就是在数据资产的生成上面,而AI的话,比如说在角色生成、场景生成,在这些工具上应该对这一块会有很大的效率的提升。

第三个的话就是传统的游戏运营对它有帮助,包括数据分析、外挂检测、AI主播,具体详细应用就不展开。

讲完了我们游戏AI的相关场景,包括我们所取得的成绩之后,我们也再回过头来,从虚拟回到现实,AI技术,我们的AI技术能否对现实的场景有没有帮助?

这里可以想一想AI,我们强调的是从现实世界和虚拟世界的映射来看,从现实到虚拟来说,其实更多是现在的AI技术研究;而从虚拟回到现实的话,我们看重的是AI技术的应用。

举个例子,比如无人车,其实我们想一下,传统的数字虚拟环境,为AI提供研究,它也有一些刚刚提到的好标准:比如它易于量化、评估。第二个的话是它可以制定各种各样的任务,甚至可以超过现实的一些任务。第三个好理解,就是高效、更高效、更经济、更安全的测试场景。所以如果我们要把一个现实问题,通过AI技术去应用,其实它有一个标准化的三要素:环境、状态和决策。

环境这个好理解,比如无人车的环境就是路网信息,里面包括其他车辆的信息、红绿灯、行人、甚至天气、能见度,而这些东西是人可以感知到的,而我们要转化成一些量化的state(状态),而关于状态这个也好理解。

大家看到无人车就知道,第一个是什么?基于是视觉信息,第二是基于雷达的信息。当然还有其他的,我们叫多模态的信息融合。经过融合之后,通过AI的技术对它进行决策,决策就比较好理解,就是人的操作。比如我们开车是怎么样开,有油门、有方向盘、有刹车等这些决策因素,所以只要把这些东西标准化之后,其实它就是很好的一个试验场景。

讲完这个之后,我们再看看,像机器人也是类似的。

机器人的环境是什么?我们可以看到传统机器人有道路、障碍物、抓取物、有目标等等,对应的状态是它各种传感器的数值、图象识别的数值、雷达的一些识别等等,有很多信号、多模态信号的输入。而它的决策,可能对机器人来说可能会有宏观决策、微操的决策,它的决策可能是连续的,也有可能是离散的,这个东西就是一个常规机器人控制的概念。

今天我们重点讲讲,因为我们做医疗,所以重点讲讲制药。制药也可以分环境、状态、决策这三要素。

环境的话,其实这里面可能包含了很多专业的医疗知识,比如我们看到有靶点、作用环境、大分子立体结构,对应抽象的状态其实就是很多数据指标了,比如靶点结合度、溶解度、作用的活性,然后到决策层就是分子的构成,会进行调整。调整完之后说什么药是有效,什么是无效的。

讲了这个之后,我们来看一下,我们的AI在药物研发上,其实需要整个新的算法和模型去对它提速,而我们其实在“开悟”上积累的,包括特别是强化学习上的经验,对于这种算法能迁移到药物研发流程,对它的整个的研发效率会有比较好的提升。

我们可以看一下这个标准的制药流程它的难点是什么,这个制药流程是复杂、费用高、风险高,可以看到它的流程经历了像基础研究、到药物发现、到临床前沿研究、到临床研究一直到上市。这个大家只要看看新冠疫苗的整个研发流程,它已经被大大加速了,实际上它的流程是非常长的。

然后,有两个核心指标大家可以看一看,一个药物最终能上市之前,在上市之前它其实是从上万个侯选药里选出来一个,或者几个。另外是它的研发时间,每个阶段都要耗时不等,但整体时间可能就是十年以上,从一万个里面最终选一个,我的时间需要十年以上。

所以从这个角度,为什么我们要做制药?因为我们现在集中在药物发现和临床前沿研究这个阶段,我们希望通过我们的算法能力,能不能快速去缩减这一块的时间,能提升它一个数量级甚至两个数量级。就是说,以前我需要从一万个里面选一个。但现在我的通过算法,我可以告诉你只要从一百个侯选药里面去选,这样可以极大的提升它前面的效率。

讲完制药之后,提一下我们AI的器材。

其实我们的器材,我们定位它,如果是标准的术语就是二类的器材,就是辅助医生、医师的检测的,我们“开悟”这一块的能力注入到显微镜这个角度,什么样的显微镜?它是一个软硬件结合的一个AI显微镜,并且已经获得了国家的认证,这里面有很多东西,它可以实时地辅助医生去诊断。第二,它的分辨率和准确率是相对一般的医生来说,它是有比较好的一致性和准确性的。第三个就是能扩展医生的这种认读能力。

可以看一看,举一个例子,比如现在AI显微镜,它其实是集成了AR的模块,当我把细胞图片放在下面的时候,我通过AR动态实时地显示,这里比如我可以看到一些细胞切片的比例,传统的医生要自己凭经验去数的,并且如果是一个住院医生、这种新医生可能经验还不是很丰富,所以准确度,包括多个医生读出来的一致性都相对来说肯定是没有机器那么准确的。

另外,包括像早期癌细胞的分析,可以通过AI的形式把这些疑似细胞圈出来,这也是辅助医生快速定位这些细胞的性质。这是我举例的游戏AI沉淀的很多技术,在医疗上的两个应用。

讲到最后了,我们再回过头来想一下今天跟大家分享的。

首先从游戏来说,我们的“绝艺”更多从复杂博弈的角度去探索AI的能力;“绝悟”是从多智能体、复杂场景的角度去探索AI;“开悟”是把我们的能力面向于学术和学生和教育角度去做开放。

然后医疗是什么,医疗现在我们做的核心几个,第一刚刚已经讲到了制药的流程,第二是医疗器械,还有一个刚刚没有提到的,我们在智能化医院里面有辅诊和导诊的这种流程,也能辅助大家去进行效率的提升。比如说有什么病状,不管通过文字或者自然语言,它都可以引导你去哪个科室去看病,类似于这种把整个医院的辅诊、导诊信息化。

这个从游戏来的,我们沉淀的很多技术在医疗上也有相关应用。未来来看的话,我们应该继续在医疗、农业、能源、包括机器人上面会有更多的应用。

好,我今天的分享就到这里,谢谢大家。

如若转载,请注明出处:http://www.gamelook.com.cn/2021/11/463125

关注微信