智东西(公众号:zhidxcom)
编 | 竭渴

智东西5月15日消息,今天,DeepMind在Nature Neuroscience发表新研究论文《Prefrontal cortex as a meta-reinforcement learning system》,该研究中使用AI来探索大脑中的多巴胺所发挥的帮助学习的作用。通过这项研究,DeepMind使用元强化学习(meta-RL)算法,指出多巴胺的作用不仅仅是奖励对过去行为的学习,它发挥的是整体作用,特别是在前额叶区域,它使我们能高效地学习新知识、执行新任务——而不需要像深度学习算法那样,依赖大量数据进行训练。

多巴胺是人们所熟悉的大脑快乐信号,通常被用来类比AI强化学习算法中使用的奖励预测误差信号,AI和人脑通过反复试错来进行学习与决策,正是由这种奖励推动的。

一、什么是元强化学习?

说到什么是元强化学习,必须先说到什么是元学习。

正如我们所见,目前,AI系统已经掌握多种视频游戏(例如Atari的经典游戏 Breakout和Pong)的玩法,或像阿尔法狗一样学会了下围棋。虽然其表现令人印象深刻,但AI仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现,而人类仅需数分钟就可以掌握视频游戏的基本玩法。对大脑何以能在少量的经验下快速学习这一问题的探究推动了元学习(meta-learning)或“学习如何学习”理论的发展。

元学习,即从例子中快速学习,以及随着时间的推移从这些例子中明白事物的规则。这被认为是人类比AI能更有效地获得新知识的原因之一。

在 AI 系统中基于强化学习算法创建这种元学习结构,即元强化学习(meta-RL)。

二、DeepMind是如何进行研究的?

研究者虚拟再现了神经科学领域中6个现实的元学习(meta-learning)实验来测试他们提出的理论。每个实验需要一个元强化学习智能体(meta-RL agent)使用相同的基础原则或技能(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(代表多巴胺)训练了一个循环神经网络(代表前额叶),然后对比该循环神经网络的活动数据和之前神经科学实验研究成果的真实数据是否相同,以求证明其理论。

DeepMind虚拟再现的其中一个实验是Harlow实验,这是一个 1940 年代提出的心理训练测试,用于探索元学习的概念。在1940年的Harlow实验训练中,研究人员先向一组猴子展示了2个它们不熟悉的物体并让它们进行选择,其中1个物体能带来食物奖励。这两个物体被展示了 6 次,每次展示中两个物体的左右位置都是随机的,因此猴子必须学会选择哪个物体才能带来食物奖励。然后,研究人员又向它们展示了2个新物体并让它们进行选择,这时也是只有其中1个能带来食物奖励。通过该训练过程,猴子摸索出了一种策略来选择可以获得奖励的物体:猴子学会了在第一次选择时进行随机选择,然后基于奖励反馈选择有奖励的物体,而不是只选择左右位置。该实验证明了猴子可以从例子中快速学会完成任务,并学会抽象的任务规则,即元学习(meta-learning)。

DeepMind新论文:多巴胺或能使AI和你一起玩《星际争霸》

(DeepMind的虚拟Harlow实验中,元强化学习智能体需要将关注点移向它认为与奖励相关的目标)

DeepMind使用虚拟计算机屏幕和随机展示的图像模拟了一个类似的测试。他们发现元强化学习智能体(meta-RL agent)的学习方式与Harlow实验中的猴子非常相似,这种相似性即使在展示完全没见过的全新图像时也会存在,即元强化学习智能体(meta-RL agent)能快速学习解决不同规则的大量任务,而且因此它还学到了进行快速学习的通用法则。

DeepMind新论文:多巴胺或能使AI和你一起玩《星际争霸》

(上图展示了元强化学习算法在多个任务基础上学习如何高效地解决新任务)

更重要的是,传统神经科学观点认为,多巴胺可以加强前额叶系统中神经元间的突触联系,慢慢的改变神经元间突触的权重,从而强化大脑的特定的行为。而DeepMind此次研究结果表明多巴胺不仅可以通过改变突触权重来强化大脑的特定行为,还可以快速编码和传输关于抽象任务规则的重要信息,使得大脑能够更快适应新任务。

DeepMind新论文:多巴胺或能使AI和你一起玩《星际争霸》

(模拟循环神经网络中编码动作和奖励历史的独立单元)

而且,长期以来,神经科学家们发现前额叶皮质中有类似上一段提到的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质的神经网络不依赖缓慢的突触权重变化来学习抽象任务规则,而是使用多巴胺直接编码的基于模型或例子的信息来快速学习,这个思路为前额叶皮质快速而灵活神经激活模式提供了更合理的解释。

据此,DeepMind不仅为神经科学做出了贡献,还运用了元强化学习(meta-RL)算法使AI像人脑一般可以快速解决并适应新的任务。

三、元强化学习(meta-RL)的意义

近年来,DeepMind团队的阿尔法狗打遍围棋界,这让大家惊讶,DeepMind似乎解决了通用AI中极其核心的一个问题,就是要让AI自己学会思考、学会推理。去年,DeepMind团队又宣布要用AI挑战《星际争霸2》电脑游戏,然而却遭遇失败。

这是因为AI学会下围棋,是运用了深度强化学习的方法,而非AI真的学会了推理。在围棋棋盘上,给AI提供的选择数量仅有几百个,而《星际争霸2》给AI提供的选择数量达到上千万个,AI需要非常长的时间熟悉这些选择与选择带来的结果,才能做出正确的选择。

然而在面对巨量选择的情况下,人类依然没问题,而且人类通过战略战术大幅度降低了选择范围,因此如何使AI能够学会思考,而不只是从过往经验中慢慢强化正确选择,并快速构建战略以完成新目标非常关键。而模仿人类的元学习(meta-learning)便是使AI学会处理这种高难度问题的解决方法。

运用元强化学习(meta-RL)算法的AI能真正帮助人类解决各种类型的问题,而不只是执行某个特定任务,这将使得AI真正适用到人们的生活、工作中。以AI机器人将来或走进千家万户为例,每个人对AI机器人的要求是不同的,每个家庭的环境也并不相同,如果AI机器人运用元强化学习(meta-RL)算法,则不需要长时间的学习就能快速灵活的适应每个家庭的需求。

DeepMind新论文:多巴胺或能使AI和你一起玩《星际争霸》