因为谷歌们的努力 骨灰级玩家的头衔要从人类手中易主了

智东西(公众号:zhidxcom)
文 | 连然

GOOGLE IS TEACHING是玩Atari游戏的机器,可以用来玩太空侵略者,视频弹球还有突围(Space Invaders,Video Pinball,and Breakout)等游戏。

DeepMind,谷歌的一个子公司,总部设在剑桥,其的研究人员已建成了一款人工智能软件——擅长于经典的游戏,有时还可以击败人专业人类玩家。追根究底的话会发觉这个事情很耐人寻味。谷歌表示如果一台机器能够学会在数字世界中看视频玩游戏,那么它最终将可以操纵真实世界。今天,这种人工智能可以玩太空侵略者。明天,它可以控制创造我们的小工具和玩具。

首先是游戏,然后是整个世界

因为谷歌们的努力 骨灰级玩家的头衔要从人类手中易主了

谷歌并不是唯一一个设想人工智能将实现从游戏到现实的跨越的公司。以来自大名鼎鼎的Peter Thiel和Jerry Yang的330万美元的资金为后盾,一个叫Osaro 的新项目启动了——向着同一个方向。在DeepMind的echo,Osaro已经建立了一个可以玩经典游戏的人工智能引擎。但Osaro的最终目的是让这种技术作成为下一代仓库和工厂使用机器人的方式。像人类一样,通过实践练习,机器的表现也会更好。“想想孩子们,他们就是通过反复练习了学到很多东西,“Osaro创始人兼CEO Itamar Arel说,“还能够最大限度地提高快乐和减少痛苦。”

像DeepMind的技术一样,Osaro的人工智能引擎是基于深刻的神经网络——可以帮助识别照片,识别语音,并通过谷歌,Facebook,微软和其他科技巨头完成翻译。Osaro的强化学习算法,可帮助机器通过反复试验提升准确率。深度学习适合感知类型的任务。如果你将足够的照片放到机器神经元网络,它可以识别出该照片的一切。而且通过大致相同的方式,还可以把握视频游戏当前的“状态”。强化学习还可以让机器需要根据自己的感知来行动。

“操纵游戏空间是操纵真实世界的第一步”

因为谷歌们的努力 骨灰级玩家的头衔要从人类手中易主了

通过神经网络掌握了视频游戏的状态后,强化学习可以使用这些信息来帮助机器决定下一步该怎么做。同样地,在一个神经网络提供机器人世界的“图画”后,加固算法可以帮助它在该环境中执行特定任务。Chris Nicholson,AI启动Skymind的创始人说,这两种技术的结合将推动人工智能超越谷歌等的在线服务,进入到现实世界。“操纵游戏空间是操纵真实世界的第一步,”Nicholson称。

Osaro通过Arel,参与构建应用深层神经网络的前计算机科学教授,在金融贸易公司的带领下,正在测试其机器人仿真器的技术。Gazebo——非盈利机器人基金会监督的一个工具,这类软件是AI进入工厂和仓库时的另一个垫脚石。先机器人模拟器,然后就是机器人。

奖励制度

为了帮助机器理解游戏状态“我的球员在哪,哪来的球,其他球员在哪,”Arel说,Osaro使用了递归神经网络,可以表现出短期记忆的一种神经网络。在了解过去的基础上他们可以更好地了解游戏的状态。“你真的不能通过只看一眼就分辨出在一场比赛正在进行的是什么情形,”Arel说。“你需要通过看一系列动作,比方说,如果一个球加速或者减速,它会向左还是向右。”

Oraro的增强算法可以作用于神经网络感知。如果模仿大脑的神经皮层部分的神经元网络用于建立加强算法视图,会有助于控制运动和学习等生活习惯的神经元。当你做一些积极的事情时,这些神经元会释放多巴胺,即强化学习机制会运行一个类似奖励制度的东西。“多巴胺是一种表明状态好的信号。它可以帮助你实现状态的转换,“Arel说。“参与强化的信号也是相似的道理。”

换句话说,如果一台机器的举动得到了更高的得分,多巴胺将相应地调整其行为。“决定是否采取行动是在奖励机制的作用下进行的。” Arel解释道。“游戏环境的回报是数字。该系统试图将点数最大化。”通过几十甚至上百台机器加工出来的系统,可以实现与人对战——Osaro就正处于这一进程中。观察,分析,行动,奖励,然后往复循环。

这些系统离人类的思想还有很长的路要走。OSRF的Nate Koenig指出,在真实世界中操纵机器人比操纵太空侵略者(游戏名)更加困难。“游戏是一个规则非常严格的世界。”他说。 “如果你要教机器人做一些事情,你可能要考虑到很多东西,比如儿童的安全。”

尽管如此,关于Osaro的进程仍在推进。虽然现实世界比游戏更复杂,我们还是经常通过相似的方式来解决挑战。Osaro的增强算法带来的回报可能是机器人将会出现在真正需要他们的地方。但当他们被带走的时候,这些好处可能也会随之消失。这也并不是人脑的真实再现。

因为谷歌们的努力 骨灰级玩家的头衔要从人类手中易主了