智东西(公众号:zhidxcom)
编 | 云鹏
智东西11月21日消息,谷歌DeepMind近日推出人工智能MuZero。MuZero使用了可自我学习的高性能机器学习模型,目前在国际象棋、围棋、将棋、Atari游戏等领域取得了领先的成绩。
据DeepMind研究人员称,MuZero使用了基于模型的强化学习算法,目前在围棋领域的性能已经略超AlphaZero。在75场Atari游戏中的得分高于先前各类算法,且所需训练时间极大减少。以下是Venturebeat报道的原文编译。
一、“自学成才”的MuZero
谷歌DeepMind在去年年底发表在《科学》杂志上的一篇论文中,详细介绍了AlphaZero,这是一种人工智能系统,可以通过自学掌握国际象棋、日本“将棋(shogi)”以及中国的棋盘类游戏“围棋”的玩法。
在每个项目中,它都击败了世界冠军,这说明了学习具有充分信息(perfect information)的两人游戏是有诀窍的——在游戏中,任何决策都是由先前发生的所有事件来决定的。
但是AlphaZero的优势是知道它要玩的游戏的规则。为了追求能够自学游戏规则的高性能机器学习模型,DeepMind设计了MuZero,它结合了基于树的搜索(tree-based search)与学习模型,树是一种数据结构,用于从集合中查找信息。
MuZero预测与游戏计划最相关的数量(quantities),从而在57种不同的Atari游戏中达到行业领先的性能,并且性能与AlphaZero在围棋,象棋和将棋中的表现相当。
研究人员说,MuZero为许多实际领域中的学习方法铺平了道路,尤其是那些缺乏规则说明模拟器或环境动力学模拟器(simulator that communicates rules or environment dynamics)的领域。
科学家在描述他们工作时写道:“规划算法(Planning al围棋rithms)在人工智能领域取得了巨大成功。但是,这些规划算法都依赖于对环境动态(environment’s dynamics)的了解,例如游戏规则或精确的模拟器(accurate simulator)。”
“基于模型的学习(Model-based learning)通过首先学习环境动力学模型,然后针对所学模型进行规划来解决问题。”
二、基于模型的强化学习
从根本上说,MuZero会接收观察结果(如围棋的棋盘或Atari屏幕的图像)并将其转换为隐藏状态(hidden state)。该隐藏状态通过接收先前状态和假设的下一个动作的过程进行迭代更新,并且模型在每个步骤中都会预测策略(例如,下棋),价值函数(例如,预期的获胜者)和即时奖励(例如,通过移动获得分数)。
▲整个国际象棋,将棋,围棋和Atari训练中对MuZero的评估,y轴显示Elo等级。
直观上,MuZero内部生成了(internally invent)导致精确规划的游戏规则或动力。
正如DeepMind研究人员所解释的那样,强化学习的一种形式——模型,是MuZero和AlphaZero的核心技术,通过奖励使AI系统朝着目标前进。
首先将一个给定环境(given environment)作为中间步骤,再用状态转换模型(state transition model) 预测下一步,最后用一个奖励模型(reward model)预测奖励。
通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模环境中,计算上是非常昂贵的。
实际上,没有一种现有的方法可以构建一个模型来促进在Atari等视觉复杂领域中的计划工作。即使在数据效率方面,结果也落后于经过良好调整的无模型方法(well-tuned model-free methods)。
对于MuZero,DeepMind采用了一种侧重于价值函数的端到端预测(end-to-end prediction)的方法,在该方法中,他们对算法进行了训练,以使期望的总和与实际操作中的期望值相匹配。
该系统没有环境状态的语义(semantics),而仅输出策略,价值和回报预测,类似于AlphaZero搜索的算法。MuZero使用该算法来生成推荐政策和估算价值,这些值反过来又用于告知已玩游戏中的动作和最终结果。
三、性能表现全面超越前代
DeepMind团队将MuZero应用于经典棋盘游戏围棋,国际象棋和将棋,作为挑战性计划问题的基准,并应用于开源Atari学习环境中的所有57款游戏,作为复杂视觉强化学习领域的基准。
他们对系统进行了五个假设步骤的训练,并在棋盘游戏中使用了100万个微型批次(即小批量的训练数据),大小为2,048,而Atari中的大小为1,024。在围棋,象棋,和将棋中每步模拟800次,在Atari中每步模拟50次。
关于围棋,尽管使用了较少的整体计算(overall computation),MuZero的性能还是略超过AlphaZero的性能。研究人员说,这证明它可能已经对其位置有了更深入的了解(deeper understanding of its position)。
至于Atari,MuZero在57场比赛中的均值和中位数归一化得分均达到了新的水平,其中42场的表现均优于先前的最新方法(R2D2),并且比所有游戏中基于模型(model-based approach)的方法表现都要好。
▲MuZero 在围棋(A),所有57个Atari Games(B)和吃豆游戏(C、D)的评估。
▲MuZero与Atari中以前的AI的比较。
接下来,研究人员评估了MuZero的一个版本-MuZero Reanalyze,该版本已进行了优化,可提高采样效率,并将其应用于75场Atari游戏中。他们报告说,它管理的标准化分数中位数为731%,而以前的最新无模型方法IMPALA,Rainbow和LASER分别为192%,231%和431%,同时所需的培训时间大大减少(12小时与Rainbow的10天相比)。
研究人员写道:“人工智能的许多突破都基于高性能计划(high-performance planning)。”“在论文中,我们介绍了这种结合了有模型和无模型的方法。我们的算法MuZero在他们主要的领域(如国际象棋和围棋等逻辑复杂的棋盘游戏)都可以达到高性能规划算法的超人性能(superhuman performance),并且在具有复杂视觉的Atari游戏中,性能优于最新的无模型强化学习算法。
结语:DeepMind推动自我学习型AI更进一步
此次MuZero的推出代表了谷歌目前在AI的底层算法领域的最高成就。它已经在测试得分和训练用时上都超过前代,甚至超过前代传奇AlphaZero。
DeepMind AI算法最大的特点就在于它不是预先设定好的解决特定问题的AI,而是遇到问题,通过学习,总结,寻找规律来完成任务,这更加接近实际应用中的情况,也是AI发展的方向。
希望谷歌的突破可以带动更多国内外科技巨头投入底层算法的研究中,推动AI进步,让AI在现实中具有更强大的能力,为人们带来更加便捷美好的生活。
原文来自:Venturebeat