智东西(公众号:zhidxcom)
文 | 心缘

智东西8月3日消息,昨夜,腾讯策略协作型 AI “绝悟”再出山,对战王者荣耀职业玩家,胜率相当惊人。

在当晚吉隆坡举办的王者荣耀最高规格电竞赛事——世界冠军杯半决赛的特设环节中,在职业选手赛区联队带来的 5v5 水平测试中获胜,升级至王者荣耀电竞职业水平。

▲“绝悟”职业水平测试完整视频(3分55秒开始)

同时,“绝悟”的 1v1 版本也在上海举办的国际数码互动娱乐展览会 ChinaJoy 首次对公众亮相,并向顶级业余玩家开放为期四天的体验测试。

在首日的 504 场测试中,“绝悟”测试胜率为 99.8%,仅在对方为王者荣耀国服第一后羿的情况下,输 1 场。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

当年 AlphaGo 打败世界围棋冠军李世石,直接引爆第三次 AI 浪潮。但与现实世界相比,它解决的问题只是九牛一毛。更为复杂的即时策略游戏(RTS)正成为研究人员们新的挑战项目。

业界普遍认为,从这些策略游戏中有望诞生下一个 AI 里程碑。

其中最受欢迎的分支是 MOBA 游戏。像谷歌 DeepMind(星际争霸2)、Facebook(星际争霸2) 及 Open AI(Dota 2)等 AI 界明星团队都在推进此类研究。

腾讯也早在两年前就透露在做 AI 打王者荣耀方面的研究。去年12月,5个相互的独立的 AI 在学会开黑技能后,5v5对阵王者荣耀中王者段位的人类玩家。大战 250 个回合后,AI 拿下 48% 的胜率,几乎与人类打成平手。

最新这场人机大战究竟战况如何?其背后的技术又如何实现?本文将简要介绍这场人机大战背后的技术,复盘全场精彩时刻,并回顾腾讯 AI 探索智能体研究的相关进程。

一、无需人类数据,一天训练强度高达人类440年

“绝悟”名字寓意绝佳领悟力,其技术研发始于 2017 年 12 月。一年后,“绝悟”通过了由前职业选手与主播联队带来的顶尖业余水平测试。

在本次测试中,新的“绝悟”版本建立了基于“观察-行动-奖励”的深度强化学习模型。

▲腾讯策略协作型AI“绝悟”介绍

这款模型无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年。

AI 完全从零开始摸索成功经验,不仅学会了如何站位、打野、辅助保护和躲避伤害等游戏常识,更惊喜的是,还探索出了不同于人类常规做法的全新策略。

游戏中测试的难点在于,AI 需在不完全信息、高度复杂度的情况作出复杂快速的决策。

在庞大且信息不完备的地图上,10 位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择。这带来了极为复杂的局面,预计有高达 10 的 20000 次方种操作可能性。

要知道,整个宇宙原子总数也仅仅是 10 的 80 次方。

团队还创建 One Model 模型提升训练效率,优化通信效率提升 AI 的团队协作能力,使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。

二、拆解“绝悟”六大精彩时刻

下面,让我们一起来复盘一下 AI 在打王者荣耀过程中的一些精彩时刻。

1、探索全新策略

如图,开局时,“绝悟”没选择传统人类对线走位策略,而是由双 C 位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

2、长线策略

在对线期,赛区联队三人压迫下路,“绝悟”果断选择用三个 AI 反压赛区联队的上路,最终双方互换一塔,维持均势。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

3、团队协作

到比赛中期,“绝悟”四人追击娜可露露,AI 达摩一脚将娜可露露反踢入 AI 群中,再由四个 AI 完美配合拿下自己的首杀。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

4、即时策略

一对一时,赛区联队实力较强的曹操追击“绝悟”虞姬,虞姬在残血状态退至高地。看到曹操抗塔血量大减后,把握机会绝地反杀。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

5、即时策略+团队协作

比赛后期在赛区联队的上路高地塔团战,AI 王昭君先手被对方秒杀,“绝悟”果断选择反打,以漂亮的一波团战全歼对手。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

6、即时策略+团队协作

在赛区联队全队覆灭后, “绝悟”的兵线尚未到达,下路高地塔还有过半血量,“绝悟”果断选择四人轮流抗塔,无兵线强拆塔。

* 注:赛事尾声,赛区联队团灭后,“绝悟”未直接推水晶,而是计算整体收益后,选择先推最后一个高地塔,再推水晶直至胜利。

腾讯AI大战王者荣耀!5v5升级电竞职业水平,504场1v1仅输1场

三、起步三年,目标远大

这已经不是腾讯 AI Lab 第一次秀 AI 大战游戏玩家了。

从2016年起,腾讯 AI Lab 就开始透露关于智能体研究的进程。他们研发的围棋 AI “绝艺”(Fine Art),现担任中国国家围棋队训练专用 AI 。

2017年,“绝悟”研发启动,到2018年时,“绝悟”已经达到业余顶尖水平。

去年5月,腾讯 AI Lab 匹茨堡大学的研究人员曾向 AI 顶会 ICML 2018 提交了一篇论文《Hierarchical Macro Strategy Model for MOBA Game AI》,尝试了 AlphaGo Zero 中出现的蒙特卡洛树搜索(MCTS)等技术,并取得了不错的效果。

那时,AI 还只能玩狄仁杰一个英雄。几个月后,它们已经可以“五人”组队,在王者段位和人类玩家打得有来有回了。

在去年12月的KPL秋季决赛中,“绝悟”曾接受前职业 KPL 选手辰鬼、零度和职业解说白乐、九天和立人组成的人类战队的水平测试,这些人类战队的平均水平超过 99% 玩家。

最终,AI 战队赢得比赛的胜利。

腾讯还在射击类顶级 AI 竞赛 VizDoom 夺冠,并在《星际争霸2》首先研发出击败内置 AI 的智能体。

在今年 4 月的高通人工智能开放日上,高通宣布将和腾讯 AI Lab 、王者荣耀、vivo四方共同打造一支王者荣耀 AI 电竞战队“SUPEX”,希望能够通过MOBA类游戏场景的实验环境来不断提升和优化 AI 电竞战队的实力,从而为移动电竞带来更好的竞技体验。

腾讯副总裁姚星介绍,“电子竞技”将成为策略协作型AI“绝悟”未来短期内的主要应用场景。

作为数字时代最受年轻人欢迎的运动,电竞已于 2018 年成为亚运会表演项目,中国队参赛获两金一银的佳绩。

与传统体育项目一样,电竞职业选手也需要手眼脑协调、策略和操作快速反应、团队协作精神及大量刻苦训练。

借助在算法和数据方面的优势, AI 可为职业选手提供数据、战略与协作类实时分析与建议,及不同强度与级别的专业陪练。以前沿科技推动电竞专业化发展,AI 将继续推动中国电竞在全球范围内保持领先。

此前,智东西曾对全球 AI 与人类对战的相关战事做系列报道。

起底DeepMind:

起底让人类汗颜的DeepMind:竟是个谷歌大包袱!

DeepMind又搞AI游戏!这次它要教人“打醉拳”

OpenAI打Dota2:

Dota2也被AI战胜了!OpenAI打出4200逆天高分 超过90%人类玩家

人类一败涂地!OpenAI战胜Dota2半职业选手

OpenAI封山决战人类Dota2冠军!2:0完胜,苦练10月堪比人类4.5万年

Facebook:

AI对战人类新里程碑!打6人德扑大胜世界冠军,学习成本仅千元

结语:解决通用人工智能的关键一步

据腾讯介绍,从长期应用上,“绝悟”将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。

AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI。

从“绝艺”到“绝悟”,腾讯 AI Lab 不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式。

这中间的研发经验、方法与结论,长期来看,有望在大范围内,如探索 AI 结合电竞、医疗、制造、无人驾驶、农业到智慧城市管理等广阔领域展现巨大潜力。

而本次两类技术水平测试结果,一定程度上反映出腾讯在深度强化学习、多智能体决策智能课题上的国际级 AI 研究水准,也标志着腾讯在攻坚通用人工智能难题上更进一步。

腾讯 AI Lab 将通过论文等形式进一步分享技术细节,通过开放研究,帮助和启发更多研究者。