跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体

智东西(公众号:zhidxcom)
作者 |  心缘
编辑 |  漠影

智东西11月28日消息,今日腾讯宣布,由腾讯AI Lab和王者荣耀联合研发的策略协作型AI“绝悟”推出升级版本——“绝悟完全体” 。

从11月28日至30日,“绝悟完全体”将限时三天对公众开放体验,只要你是荣耀黄金I及以上段位,进入王者荣耀“绝悟挑战”,就能跟AI正面PK。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体
▲红方AI 铠大局观出色,绕后蹲草丛扭转战局

这可是难得的实战教学机会,要知道,未满三岁的AI“绝悟”,每天都会深度模仿KPL职业玩家数据并进行大量自我对战,训练强度高达人类几百年的训练量。

在20个关卡中,“绝悟”的能力将不断提升,并接受5v5组队挑战,玩家可以从与“绝悟”的对战中,感受到AI在复杂策略、团队协作与微观操作方面的强大实力,如果通关还能获得荣誉称号奖励。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲绝悟AI能力演进图:从MOBA新手玩家到职业顶尖水平

AI“绝悟”水平如何呢?在今年5月1日至5月5日期间,AI“绝悟”与顶尖玩家对抗了642047局,胜率高达97.7%。

而最新开放的AI“绝悟完全体”有两大特点:一是英雄池数量逾100个,掌握所有英雄全部技能;二是优化了禁选英雄博弈策略,能综合自身技能与对手情况等多重因素派出最优英雄组合。

与该版本相关的强化学习研究已被AI顶级学术会议NeurIPS 2020,监督学习研究已被顶级期刊TNNLS收录。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲强化学习相关研究被NeurIPS 2020收录

一、掌握100+英雄,完全解禁英雄池

在王者荣耀中,如果每个职业都有4个紫色熟练度英雄,就能解锁“全能高手”称号。但因练习时间和精力限制,很少有人能精通所有英雄。

而在技术团队的努力下,一年之内,AI“绝悟”掌握的英雄数量从1增加至超过100个,完全解禁英雄池,可应对高达10^15的英雄组合数变化。

多英雄组合绝非易事,在对战中,因为地图庞大且信息不完备,不同的10个英雄组合有不同的策略规划、技能应用、路径探索及团队协作方式,使决策难度几何级增加。不仅如此,多英雄组合还带来“灾难性遗忘”问题,模型可能边学边忘。

为应对此类问题,技术团队先采用引入“老师分身”模型,每个AI老师在单个阵容上训练至精通,再引入一个AI学生模仿学习所有的AI老师,最终让“绝悟”掌握了所有英雄的所有技能。

为了让AI用每个英雄都能达到顶尖水平,技术团队重点做了三项突破:

其一,构建了一个最佳神经网络模型,让模型适配MOBA类任务、表达能力强、还能对英雄操作精细建模。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲神经网络架构

模型综合了大量AI方法的优势,在时序信息上引入长短时记忆网络(LSTM)优化部分可观测问题,在图像信息上选择卷积神经网络(CNN)编码空间特征,用注意力方法强化目标选择,用动作过滤方法提升探索效率,用分层动作设计加快训练速度,用多头值估计方法降低估计方差等。

其二,研究出了拓宽英雄池,让绝悟掌握所有英雄技能的训练方法CSPLCurriculum Self-Play Learning,课程自对弈学习)。

这是一种让AI从易到难的渐进式学习方法:

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲CSPL的训练流程图

第一步是挑选多组覆盖全部英雄池的阵容,在小模型下用强化学习训练,得到多组“教师分身”模型。

第二步是蒸馏,把第一步得到的多个模型的能力迁移到同一个大模型中。

第三步是随机阵容的强化训练,在蒸馏后的大模型里,随机挑选阵容继续强化训练和微调。通过多种传统和新颖技术方法的结合,实现了在大的英雄池训练,同时还能不断扩展的目标。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲用CSPL方法扩展英雄池有明显优势

其三,搭建了大规模训练平台腾讯开悟,依托项目积累的算法经验、脱敏数据及腾讯云的算力资源,为训练所需的大规模运算保驾护航。

开悟平台已于今年8月对18所高校开放aiarena.tencent.com,为科研人员提供技术与资源支持。

二、AI教练排兵布阵,做出最优选英雄策略

光有AI“绝悟”这样的顶尖选手还不够,对于团战而言,一个能排兵布阵的AI教练很重要,也就是在游戏禁选英雄(BP)环节的最优策略。

简单的做法是选择贪心策略,即选择当前胜率最高的英雄,但王者荣耀上百个英雄之间相互存在促进或克制的关系,只按胜率选择可能会被对手抓住漏洞,怎么样最大化己方优势、弱化对手优势是个难题。

受围棋AI算法的启发,团队使用蒙特卡洛树搜索(MCTS)和神经网络结合的自动BP模型。

MCTS方法包括了选择、扩张、模拟和反向传播四个步骤,会不断迭代搜索,估算出可选英雄的长期价值。因为其中模拟部分最耗时,研究团队用估值神经网络替代该环节,加快了搜索速度,就能又快又准地选出具备最大长期价值的英雄。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲绝悟vs人类BP测试

要提到的是,围棋等棋牌类游戏结束就能确定胜负,但BP结束只到确定阵容,还未对战,所以胜负未分。因此研究团队利用绝悟自对弈产生的超过3000万条对局数据,训练出一个阵容胜率预测器,用来预测阵容的胜率。进一步的,胜率预测器得到的阵容胜率被用来监督训练估值网络。

除了常见的单轮BP,AI教练还学会了王者荣耀 KPL赛场上常见的多轮BP赛制,该模式下不能选重复英雄,对选人策略要求更高。团队因此引入多轮长周期判定机制,在BO3/BO5赛制中可以全局统筹、综合判断,做出最优BP选择。

训练后的BP模型在对阵基于贪心策略的基准方法时,能达到近70%胜率,对阵按位置随机阵容的胜率更接近90%。

三、监督学习AI智能体达到业余顶尖高手水平

研究团队同时研发了基于监督学习的AI系统,使得“绝悟”同时拥有优秀的长期规划和即时操作,达到了非职业玩家的顶尖水平。相关技术成果曾在2018年12月公开亮相对战人类玩家。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲多任务神经网络模型架构

具体而言,研究人员设计了一套适用于MOBA游戏的特征和标签,将AI智能体的行动过程归纳为层级多分类问题,并提出一种同时建模大局观和微操策略的端到端监督学习方法来解决该问题,同时提出了分场景采样的数据预处理方法来进一步增进AI能力。

经大量实验,该AI智能体达到高分段人类玩家水平,这也是监督学习AI智能体首次在MOBA游戏达到人类业余顶尖高手水平。

团队对于监督学习的研发一直在持续进行中。今年11月14日起开放的绝悟第1到19级,就有多个关卡由监督学习训练而成。虽然在理论上,监督学习训练出的AI表现会逊于强化学习的结果,但此类研究极具研究与应用价值,相关技术成果还入选了顶级期刊TNNLS 。

跟AI打王者荣耀你能赢几局?腾讯AI绝悟升级完全体▲监督学习相关研究被TNNLS收录

论文链接:https://arxiv.org/abs/2011.12582

研究方法论上看,监督学习对于AI智能体的研发有很高的价值。

首先,监督学习是通常是研发游戏AI的第一步,很多游戏直接借助监督学习就能使AI智能体达到人类高手水平。

第二,它能复用为强化学习的策略网络,如AlphaGo就是监督学习结合强化学习。

第三,它还能缩短强化学习探索时间,比如 DeepMind的星际争霸AI AlphaStar就用监督学习做强化训练的隐含状态。

在应用方面,它更是具有诸多优点。比如训练快,在16张GPU卡上只需几天,而强化学习则需几个月;拓展能力强,能完成全英雄池训练;因使用真实玩家的脱敏数据,配合有效采样,产出的AI行为上会更接近人类。

长远来看,监督学习和强化学习的结合,将是推动走向通用AI问题的一个重要组合。

结语:游戏AI的目标不止是战胜人类

游戏AI的研究历史已有数十年,从Atari系列、象棋、围棋、德州扑克,到星际争霸2、Dota 2、王者荣耀等,复杂的策略游戏已经成为研究AI多智能体竞争协作策略的重要高地。

作为一款国民级多人协作游戏,王者荣耀在设计上具有高复杂度、高挑战性,满足了对高水平AI+游戏的研究需求。

短期来看,AI研究既能为游戏职业选手提供数据、战略与协作方面的实时分析与建议,以及不同强度和级别的专业陪练;又能优化玩家体验,比如对恶意玩家行为的建模来识别恶意行为,或在局后通过AI技术的精彩场景自动剪辑及智能教学体系建设,带给玩家更多乐趣。

长期来看,AI在复杂策略游戏中发展出的方法论,或给机器人实时决策等现实问题带来启发,有望移植到医疗、自动驾驶等更多智能场景,并推动AI研发向终极目标“通用AI”继续迈进。

最后,人类玩家加油,找出AI漏洞,然后帮包括“绝悟”在内的各种策略类AI变得更强。