DeepMind又搞AI游戏！这次它要教人“打醉拳”

智东西（公众号：zhidxcom）
编 | 季瑜生

导语：昨日，DeepMind和全球规模最大的游戏引擎之一Unity宣布合作，打造虚拟环境训练游戏AI。

智东西9月27日消息，继AlphaGo在围棋领域封神退隐，DeepMind在星际争霸大杀四方后，DeepMind又一次在竞技游戏中搞出了大动作。这一次，它将目光瞄准了打造了纪念碑谷和Pokémon的游戏引擎Unity。

不过这一次，DeepMind并没有选择宣战，而是一改往常的行事风格搞起了合作。届时DeepMind将利用Unity在虚拟空间打造的强大能力，来在模拟世界中进行大规模的机器学习与强化训练，比如教小人儿“打醉拳”，让小狗学会“叼棍子”。

一、游戏与AI，到底如何牵手

游戏牵手AI，就意味着大型AI算法的训练场地将搬到游戏之中。

游戏中，最开始创建的小人儿连怎么移动都不知道，但是经过了一段时间的强化学习后他就学会了像打醉拳一样的笨拙跑步，而且这一过程并不需要有人去教他要怎样跑步，或者跑步的时候需要先迈哪只脚。

还有下面这张图，在这个场景里，小狗如果叼到棍子就会获得奖励。

在最开始的时候，小狗同样不知道该怎么去动用它的四肢，先迈前腿还是后腿，是要前后运动还是像螃蟹一样横着走都是一个问题。但是通过试错和激励，小狗在预设的生理和物理参数下不断地优化自己之前的行为，最终得到了最优解决方案。

在Unity中，DeepMind可以对算法进行训练。在游戏的模拟空间中，不仅会仿照真实世界的场景与规则，还可以对参数进行自定义调节。在这一过程中，算法可以不断试错优化，最终准确率不断提升。

相较在现实世界中运行，游戏场景下运行不仅更加自主可控，而且在成本以及安全性上也具有无可比拟的优势，这也将成为未来人工智能发展的一大趋势。

不过这也算不上是什么新鲜事儿，一直以来都有研究人员和企业使用游戏引擎来训练AI。比如Nvidia早前就在Unity的竞争对手Unreal Engine上建立了一个叫Isaac的虚拟机器人训练系统。

为三家科技巨头（亚马逊、Uber以及Unity）构建机器学习平台的Danny Lange则早在2016年12月成为Unity AI副总裁之前就建立了Uber的机器学习平台。

AI与游戏结合的思维其实可以在很多领域应用。比如在自动驾驶领域，自动驾驶车辆上路前可以先让算法在游戏中几十亿英里的模拟道路上进行路测，从而对现实世界中的自动驾驶提供帮助。

Lange对于强化学习和其他人工智能在游戏中所能取得的成就报以非常乐观的态度。他认为除了机器人之外，虚拟玩家还可以用来开发更加宜居的建筑设计，在一千个虚拟家庭里构建上千种房屋设计都不成问题。

Lange还表示，因为模拟的物理空间往往不受场地等的限制，所以还可以进行一些模拟化学实验，而且用软件来模拟这种化学实验远比人工的速率要高，起码它可以缩小实际备选实验用品范围。

另外，要知道一款高仿真的大型游戏中所涉及的远远不止物理学。比如侠盗猎车手系列游戏，可以模拟橡胶轮胎是如何抓住的沥青，也可以模拟多种性格人物之间的交往。而这其实也是一个新兴领域，可以用来模拟社会动态，模拟社会中人物之间的实际交往。

这也可以成为人们对于群体行为观测的一个新视角，不过这目前也仅限于理论上。

Lange还模拟了人们如何通过闲聊来影响股票的价格，要是一个人说股价会涨，另一个人觉得会跌，那么最终会对其他人产生什么影响呢？

自然界里，动物在学会走路、跑步甚至炒股前，最基本的是要学会爬行。强化学习同样如此，如果一上去就交给它一个非常棘手的问题，想要得到一个理想的结果显然是痴人说梦。

因此通常情况下，强化学习一般用于实现虚拟角色的离散型任务，学习的困难程度也可以倒过来帮助游戏设计师们评估他们所开发平面图的直观程度。

那么要怎么让机器学会一些复杂任务呢？

第一步是拆解，首先将任务分解成一个一个简单的小任务，然后逐步运用前一阶段所学习的知识来运用到下一个任务上。就像那只虚拟的小狗，它一旦学会了怎么叼木棍后很快就可以学会怎么跨过障碍。

而且只有进行大规模的深度学习才能有所回报，如果只是对一只狗训练五分钟那也真的别指望它能学会什么。但如果以每秒10,000帧的速度训练一千只狗24小时，那么这些狗会做出各种我们想不到的疯狂事情来，最终会有一只达到我们所预期的目标。

游戏运作的方式也是类似的，当玩家要打倒大BOSS，那他们自己的水平在这之前也是在逐步提升的（这里的玩家说的是算法）。而游戏引擎的一大好处就是可以自行为算法拆解好阶段，生成关卡。

关于此次合作的细节，DeepMind在新闻发布会上并没有过多的提及，Unity同样对于交易细节、交易数额同样是三缄其口。

Unity AI副总裁Lange表示，他们与DeepMind的交易不仅仅是出售软件许可证，而是一场在AI方面的合作。

当前阶段的游戏早已经脱离了贪吃蛇或者俄罗斯方块这种简单的形式，达到了在视觉上、物理上、认知上甚至是在社交互动上高程度仿真的自然模拟水平。这些都给算法带来了进化压力，而这一种进化就好像在大自然中生物千万年的漫长进化一样神奇而又迷人。

在大型服务器上，机器学习AI可以在海量的数据中一路狂奔，从而获得比人类用规则做出的编程还更要有效的成果。这也正是双方合作的一个基础共识。

一年前，Unity还通过其ML-Agents开源工具包将游戏引擎与机器学习程序相关联，来普及AI开发。当时参与开发的包括AI研究者和一些知名的游戏开发人员。Lange表示每个人都可以使用任何人开发的东西，Unity也不例外，他希望可以运用人工智能技术来创造出一些游戏中的NPC。

DeepMind方面，在与Unity合作的前，他们便已经自行研发游戏引擎有一段时间了。DeepMind联合创始人兼首席执行官Demis Hassabis表示：“游戏和模拟从一开始就是DeepMind研究计划的核心部分，这种方法已经在人工智能研究方面取得了重大突破。”

不过也许是因为以前当过游戏设计师，Hassabis相较自行研发更愿意与C端的游戏制造商合作。毕竟像Unity和Unreal这样的大众引擎在是商业驱动的，他们会有庞大的开发者社区，也可以提供更好的开发模拟。

在这之后，人们的下一阶段任务就变成了如何让算法在一些更加真实的场景之中运行，比如在房子里、在高速路上又或者是在一些3D游戏中的模拟环境中。

原文来自：FastCompany