比AlphaGo更神秘解读谷歌自学习机器人项目

智东西（公众号：zhidxcom）
编 | 元琛

导语：从AlphaGo开始，人机大战层出不穷，机器学习、深度学习的概念也越发普及。实现强人工智能的捷径，似乎就在眼前。

有这样一个场景：两个机器人面对两扇关着的门，他们向前伸出“手”，但却完全没有抓住门把手。于是他们重新开始，这一次他们正面触到了门把手，还敲响了门框。他们又试一次，又试一次，不断尝试。经过几个小时的试验和错误，最后，他们可以轻松地抓住门把手，把门打开。

一直以来，虽然有很多类型的机器人都可以做到这件事，但上面描述的这两个机器人明显有所不同：它们由谷歌研发，具备自我学习的能力，是依靠自己学会了“开门”。依靠一种称为“强化学习”的技术，他们训练自己执行一个特定的任务，一遍又一遍地重复它，仔细记录这个过程。 大名鼎鼎的围棋人工智能AlphaGo正是基于相同的技术原理。现在，它将机器人技术推向了一个全新的领域。

除了几个视频和两篇博客文章外，谷歌拒绝对外透露这项研究。目前已知的是该研究由加利福尼亚大学伯克利分校的机器人学家谢尔盖·莱文主导。当然，该项目仍处于早期阶段。但对于机器行业来说，它显然代表了一个更宽广的可能性——机器可以自己学习做事，而不用严格遵守工程师预先设计的程序办事。

人们都希望，强化学习和相关方法可以促进自动机器人的发展。毕竟。这些方法已经成功地促进了纯数字领域中许多技术的进步。而随着上述技术的不断进步，机器人硬件也在迅速演变。在那些谷歌发布的网络视频中，机器人的这一改变也被强调提出。讽刺的是，这样的技术研究完全无视了特朗普政府要给美国工业带来更多的工作机会的誓言——美国企业已经用机器人取代了大量的人类工作，而现在研究人员正在研发的自主学习机器无疑将能够替代更多的人类工作。

Ronnie Vuine与哈佛认知科学家Joscha Bach一起创立了机器人公司Micropsi。“我们感兴趣的是能够与人类互动的机器人，”他说， “想象一下，机器人完成一部分工作后把它交还给人类手中，或者从人类手中领取一部分工作。今天，这样的设想还未能实现。”

1.试验和错误

强化学习并不是一项全新技术。两年前，当Google收购伦敦人工智能实验室DeepMind并使用这项技术构建以超人力方式玩经典“雅达利”游戏的系统时，强化学习就已经出现了。这个游戏需要用一个桨和一个弹跳球来击倒一堵砖墙，经过训练学习，DeepMind的AI最终可以令人难以置信地轻松通关。

然后，实验室对人工智能下围棋运用了相同的技术，提前计划十年突破了这项历史悠久的游戏。 DeepMind创始人Demis Hassabis和他的团队将大约3000万局围棋记录植入到机器的深层神经网络 ——这是一种模式识别系统，它能够通过分析大量的数据来完成学习任务。一旦系统学习了某项游戏，它就会通过和自己不断的“对战”，来达到更高竞技水平。

强化学习特别适合游戏。该技术由“奖励功能”驱动，系统会自动追踪哪些动作能够带来奖励，哪些不带奖励。 在游戏中，奖励是显而易见的：更多的积分。但是在现实生活中，奖励功能有时不太明显，有时则会更多。比如，对于谷歌的机器人来说，奖励就是成功打开门。

2.广阔新天地

当然，打开门只是进入新世界的一小步。要实现更远大的目标，对于研究项目来说正变得极为复杂、需要极速更新，更不用说也是极为昂贵的。这就解释了一大疑问：为什么许多研究人员在将强化学习应用到现实世界，以改进机器人的游戏能力之前，要使用数字模拟来进行探索。

比如OpenAI，它是由埃隆·马斯克投入十亿美元创建的人工智能实验室。它构建了一个名为Universe的扫描软件平台，其中AI“代理”可以使用强化学习来掌握从游戏到Web浏览器的各种计算机应用程序。在理论上，这可以帮助实现现实生活中的智能操作代理。如果你能教一个AI玩一个驾驶游戏，同理，你可以教会它开车。

Prowler.io是英国剑桥的一家创业公司，它正沿着同样的道路前进。今天，这个小团队的研究人员正在建立可以学习指导大型多人游戏《虚拟世界》的代理。但随着时间的推移，他们计划将这项工作扩展到现实世界中的机器人和无人驾驶汽车。

当今，真正的无人驾驶汽车不应该是具体的如何操作问题，不应是基于工程师编制的那一套庞大的规则做出决定。因为这并非是真正的自动驾驶，并非是真正的自主决策。 Prowler的创始人兼CEO Vishal Chatrath将他以前的AI公司卖给了苹果公司，他认为强化学习和相关技术对于建设真正的无人驾驶汽车至关重要 ——汽车自己可以做一切人类驾驶者能做的事情。

在柏林，如同Google一样，Micropsi已经将这些技术推广到现实中。该公司成立于2014年，着眼于为制造业及其他工业目的来制造机器人。它首先建立了机器人模拟系统，通过强化学习进行训练。公司网站上的视频展示了这样一个系统：一个虚拟机器人手臂正学习用虚拟手指的指尖来使虚拟杆保持平衡。该系统模拟重力和机器人动作，并且奖励功能自动追踪该虚拟杆掉落与否。 “为使虚拟杆不掉落，我们每秒钟给机器人一个cookie，”Vuine说。 “如果杆掉了，就惩罚它。”现在，公司正在将这些相同的技术应用到一个称为通用机器人的现实机器上。

3.现实的问题

麻烦的是，现实世界也需要新技术。Vuine声称他的公司可以解决计算机模拟中出现的任何机器人问题，但模拟毕竟只是模拟，并非现实。 “如果你在模拟中做到了，那么在现实中也不一定可以做到，”他承认这一点，“现实情况很难完全模拟出来。”换句话说，你可以通过模拟来构建一个能够保持虚拟杆平衡的机器人，但是要教它将插头插入插座，则需要真正的插头和插座。”

由于有一个明显并简单的奖励机制，将插头插入插座的任务无疑十分容易。然而，现实中的大多数行为更难以评价。当你将诸多任务串在一起时，这些奖励系统会变得非常复杂。 Carnegie Mellon研究员Abhinav Gupta正在使用来自Google的资金探索类似技术，希望解决如何在短期内有效地使用强化学习的问题。

Chatrath认为，至少现在，要现实世界中真正应用AI，最好方法是先通过那些小而简单的机器实现，比如说玩具。这一设想的原理很简单：系统可以通过学习使用简单的机器，将他们所学到的应用到更复杂的机器上。很明显，机器人不只是有一种学习方式。他们的学习方法有很多。

机器们已经开始学习了。

原文来自：wired

相关推荐