解码Facebook的AI野心:靠的是两张王牌和两个部门

智东西(公众号:zhidxcom)
文 | 海中天

在Facebook的企业文化中,流传着各种各样的“格言”,它们经常以标语的形式出现在办公室内,或者被CEO马克•扎克伯格及其它高管所引用,比如:“代码胜于争论”,“快速前进,破除陈规”,“完成比完美更好”。

在Facebook纽约办事处的墙壁上有一条标语,它完美地总结了伊恩•勒坤(Yann LeCun)给Facebook管理层灌输的AI和机器学习新理念:“一直保持开放。”

Facebook正在膨胀,AI已经成为庞大帝国的重要部分。Facebook用AI来识别图片,修饰动态消息。上周,Facebook还推出了DeepText,它是一个文本阅读引擎,每秒可以理解几千篇帖子,精准度和人类一样,覆盖20多种语言。很快,这些文本将会被自动翻译成十几种不同的语言,完全自动翻译。Facebook还在开发工具识别语音,识别视频中的人物,当你观看的时候可以快进,直接跳到朋友出现的那一幕。

在社交和即时通讯领域,Facebook已经是统治者,现在它还想统治AI和机器学习。公司已经招募150多名员工专门从事AI和机器学习方面的工作,研发投资也会增加2倍,Facebook拒绝透露投资到底是多少。

解码Facebook的AI野心:靠的是两张王牌和两个部门

团队成员:Antoine Bordes, Yann LeCun, Laurens van der Maaten, Leon Bottou, Y-Lan Boureau, Soumith Chintala

迟到者

Nvidia CEO黄仁勋认为,如果说移动运算是计算的前一个时代,那么下一个时代将是AI。Nvidia是世界最大的显卡处理器生产商,也是Facebook的开源硬件设计合作伙伴。黄仁勋还说:“在过去20年里,AI是计算领域最重要的突破点,Facebook与其它企业必须竞争,确保AI成为公司的核心。”

直到3年前,Facebook才开始认真进入到AI领域,要参与竞争,需要的不只是金钱,毕竟AI是目前竞争最激烈的领域之一。“它们实际上是迟到者。”华盛顿大学计算机教授佩德罗•多明戈斯(Pedro Domingos)称,“谷歌和微软大大领先。”当扎克伯格宣布要开发一个人工智能管家来管理家务时,谷歌和微软已经在开发AI软件了。

从1991年开始,微软就在研究机器学习,它拥有几百名科学家和工程师从事此类工作,研究涉及几十个领域。谷歌助手(Google Assistant)是深度学习的成果之一,它已经开始成为大多数谷歌APP和服务的“大脑”。

2014年,百度从谷歌挖走了深度学习项目主管吴恩达(Andrew Ng)。非盈利组织OpenAI已经获得10亿美元资金支持,投资者包括特斯拉创始人马斯克及其它重量级科技名人。亚马逊CEO贝佐斯在参加会议时表示,4年来公司一直在秘密开发AI,现在已经有一千名员工专门从事语音识别系统的开发。苹果和Uber也向AI投入许多资源,它们努力争夺人才。

所有这一切都为AI带来了新一轮创新,当中的一些还是伊恩·勒坤在加入Facebook之前创造的。以前,Facebook连一个像样的AI实验室都没有。

领导者勒坤和坎德拉

勒坤是Facebook AI研究项目的主管,他专注于基本技术和长远研究项目。Facebook还成立了应用机器学习(Applied Machine Learning,简称AML)部门,由杰奎因·坎德拉(Joaquin Candela)领导,他是一名机器学习领域的专家,曾在剑桥大学讲授机器学习课程,他的团队负责将技术应用在现有Facebook产品中。

两个部门是独立的,勒坤和坎德拉向Facebook CTO迈克·斯科勒普夫(Mike Schroepfer)汇报工作。如何让两个部门合作,如何在长远科学研究和短期业务目标之间取得平衡,这是它们所面临的一大挑战。为在达成目标,他们想出一个办法:让两个团队紧靠在一起工作。勒坤称:“必须建立个人关系,必须密切协作。”

在Facebook,两个部门不只靠在一起办公,还离最高层很接近,与扎克伯格和斯科勒普夫办公室仅一尺之遥。由此可以看出AI和机器学习在Facebook的价值有多大。

尽管如此,深度科学并不会因为员工靠在一起工作就会变得更容易。要理解勒坤和斯科勒普夫的计划,首先要理解他们来自何处!

谁是勒坤

在纽约大学计算机系伊恩·勒坤的办公室前门上,有一个大大的蓝色拇指Logo。勒坤是全球最著名的深度学习专家之一,他并没有在Facebook办公室上张贴这样的Logo。最近,勒坤穿上了一件海军蓝Polo衫,上面印着一个小小的爱因斯坦头像,下面是单词“THINK”。他笑着说,两年前,当他宣布加入Facebook时有人贴上了图标,他没有取下来。

现年55岁的勒坤仍然是纽约大学的兼职计算机教授,纽约大学离Facebook 纽约办事处很近。

如果你用ATM存过支票,应该看到过勒坤的研究成果。他是卷积神经网络的创造者之一,在AI世界名气很大。到了今天,在开发可扩展自动自然语言理解工具、图像识别工具时,卷积神经网络成为了基石,甚至连语音识别、视觉搜索系统也离不开它。开发模型,复制生物视觉皮质的运行,这是勒坤在该领域的主要成果。

在建设FAIR(Facebook AI研究团队)时,勒坤拥有很大的自由,在美国,他可以自由招募员工和团队。扎克伯格和斯科勒普夫之所以给予勒坤自由是有理由的,毕竟勒坤在贝尔实验室工作了14年,对什么管用什么不管用有很强的感觉,很久以来他就在思考一个问题:如果有机会建设一个新的研发实验室,他准备怎么做码,比如GitHub。勒坤称:“我看到许多朋友从实验室跳到了大型科技企业,这些实验室有开放的文化,他们试图改变企业文化,结果完全失败了。”在加入Facbook之前,他问了许多问题,当中就包括Facebook对开源世界和开放文化的承诺。

解码Facebook的AI野心:靠的是两张王牌和两个部门

团队成员:Hussein Mehanna, Joaquin Candela, Tommer Leyvand, Vincent Cheung

研究和应用

一方面是研究,另一方面是将研究成果转化为产品,勒坤希望能在二者之间保持平衡。在勒坤看来,为了让研究者保持专注,许多科技企业都面临困难。曾经,施乐PARC是硅谷的传奇,它开发了图形用户界面,后来苹果用在了Lisa上,然后是Macintosh,这一切都是因为乔布斯1979年拜访了实验室。这个例子可能是最著名的了!

有一种模式在勒坤看来是不可取的,它就是所谓的“混合研究(hybrid research)”,意思就是说将研究人员嵌入到工程团队中。这种模式会牺牲创造力。还有一个问题就是研究者钻进了象牙塔,与公司的其它部分缺少交流。

2002年至2003年,勒坤曾在NEC普森斯顿(Princeton)实验室工作。NEC是一家日本企业,它在普森斯顿设立的实验并不急于开发产品。“NEC实验室最开始时没有要求员工为公司开发任何产品。”勒坤说,“突然之间,他们提出这样的要求。他们告诉员工,如果可以开发能使用的产品会是好事一件,结果所有人差不多都离开了,包括我。要打破已经形成的研究和开发壁垒是不可能的事。”

开放

Facebook全面开火,现在扎克伯格的目光已经超前了10年,他关注的范围包括AI、VR和无人机。

在勒坤的领导下,FAIR于2013年12月成立,它致力于AI和机器学习长远问题的研究。Facebook很清楚,如果要让团队的工作同时获得短期和长期利益,必须让一些科学家、工程师开发能够影响多年的新技术,同时让另一部分人开发新技术影响当前产品。照勒坤的估计,团队70%的工作是研究性质的,还有30%属于短期开发。

“我们更加向外聚焦。”勒坤解释说,“我们发表了许多报告,开放了许多代码。我们已经是研究社区的一部分,因为我们真的想挑战极限,真的想推动技术前进,推动科学前进。我们要确保自己掌握了专业知识,控制了当前最尖端的技术,我们正在朝着这一方向前进。”

团队的野心很大:让机器学会“常识”,也就是让机器像孩子、动物一样学习。据勒坤透露,FAIR当前最大的项目是面向对话的自然语言理解系统,它是Facebook智能语音助手的基础。

事实证明,每一家大型科技企业都想为语音助手的领先者。最显著的例子是苹果Siri。微软加入了游戏,它推出了Cortana,亚马逊拥有Alexa,还有Viv也已经推出。

让机器具备常识

在智能语音助手方面,Facebook有自己的计划,比如M。AI正是M的核心,勒坤认为,要让系统成功回答任何问题,真正对用户造成影响,它必须具备常识。

“也就是说,让机器通过观看世界来学习。”勒坤称,“不需要训练机器来识别薄纸、汽车手机和其它东西。”

到了今天,还没有什么技术能让机器具备常识。勒坤相信,这种解决方案并不能直接解决问题。相反,你必须先搞清如何让机器理解文本,然后教会机器背景知识——关于世界的知识,这样它就可以理解了。

“如果我说:‘奖品不适合放在箱子里,因为它太小了。’你会知道所谓的‘它’指的是箱子,而不是纪念品,因为你知道要将什么东西放在别的东西里面。”

机器不理解这些,FAIR的长远目标之一正是让机器的理解力达到这种水平。

让机器拥有复杂的常识,可以理解文本,影响的不只是语音助手,还包括自动语言翻译工具,Facebook的用户遍布全球,它认为语言翻译是一个重要的功能。

“翻译是一个相当重要的功能。”勒坤称,“Facebook的主要使命是让人互联,我们要做的第一件事就是要让人们可以通过翻译沟通。”

另一个部门AML

AML部门主管杰奎因·坎德拉(Joaquin Candela)坐在Facebook总部,与旁边的大盒子相比,坎德拉显得有些矮小,盒子里装满了填充动物玩具。没有会议室,39岁的坎德拉将我们带到了一个小角落,那里摆了两张沙发,这个角落很黑,而整幢大楼熙熙攘攘、灯光通明。到时间与斯科勒普夫会谈了,坎德拉拿起我们的记录器,一边说一边将我们领到CTO的办公室。

当AML还在策划筹备时,勒坤已经来到了Facebook,事实上正是他推动了AML的成立。勒坤称:“要让FAIR开发的技术进入产品,AML会是一个主要的渠道。”

AML的目标是提高技术水平,追求技术转移的最大化,成为科学研发和技术转移的粘合剂。为动态与广告排名、搜索、语言翻译、语音识别、视频自动添加标签功能开发更好的算法,这些AML都要负责。

谈到AML的创立时,坎德拉希望部门能避开错误,也就是其它应用实验室犯下的错误。成立AML的时候坎德拉还是Facebook的工程经理,运营一个团队,这个团队负责搭建机器学习基础设施。坎德拉称:“从科学向工程转移,成功的并不多。”

还有一些错误要避免,例如,实验室与工程太疏远,研究人员不再专注于与产品有关的目标。

用开放吸引人才

勒坤团队将70%的时间花在科学研究上,坎德拉的团队完全相反,他们将大多的时间用来将研究如何将成果应用在扩散性产品上。坎德拉表示,他的团队会以几个季度、几个月为基础来考虑项目,而不是5年至10年——勒坤团队以这个时间为标准来开展工作的。坎德拉团队一般会以6个月为基础来制定计划,虽然目标瞄准的是2年。

尽管两人的工作不同,坎德拉和勒坤都认为只有开放才能获得更大的成功。Facebook CTO斯科洛普夫表示认同。除了开放硬件和数据中心,斯科洛普夫还说Facebook工程师已经开放了1000多万行代码,有350个活跃的GitHub项目正在执行。

开放的程度对于招募优秀人才至关重要。“顶尖科学家想去哪里工作?”坎德拉说,“他们想与志趣相同的人工作,怎么知道我们拥有志趣相投的人呢?因为你看到他们围绕什么而工作,看到他们发表了什么,知道他们试图解决的问题,知道他们打算怎样解决问题。”

AML最新成立了一个团队,与计算摄影有关。去年,瑞克·斯泽里斯基(Rick Szeliski)和另外几个人从微软研究院跳槽Facebook,于是成立了这个团队。团队研究视频稳定技术,包括360度视频,他们想帮助人们更好地自拍,组织手机上的视频内容。

“我们之所以来到Facebook,主要是因为这里是图片的源头,是数据的源头。”斯泽里斯基说,“我们要分析一些东西,它是存储这些东西的最大‘仓库’。我们每天都可以接触到图片,可以让用户高兴,他们越高兴,拍摄和分享的图片也就会越多。所以说,Facebook不只是图片的诞生地,还是图片的流动地。”

解码Facebook的AI野心:靠的是两张王牌和两个部门

Flow

在Facebook,我们经常会听到一个词汇“Flow(流动)”。为什么?部分是因为FBLearnerFlow,它是一条端到端研发和工程管道,由AML打造,类似于杀手级应用,专门针对机器学习测试和分享,只是到目前为止FBLearnerFlow仅供内部使用。在FBLearnerFlow内,Facebook从事AI和机器学习工作的每一个人都可以发布资料,让其它人使用。

“假设我们有一个新的广告项目,要在Instant Articles中植入富媒体广告内容,而负责项目的团队并不具备机器学习知识。”坎德拉举例说,“没问题,这些工程师可以进入Flow,浏览所有实验原型以及产品原型,他们可以选择模块,用在自己的产品中。我一直鼓励员工提出申请,借走模型,用在自己的项目中。没有必要白费力气做重复的事。”

Flow还是一个平台,可以在控制性环境中测试新功能。“这是一个很美的产品。”坎德拉说,“在这里包括整套流程,从研究一直到实际实验,当你正在做实验,如果有1%的人参与,看起来不错,我们就开始将它向所有人推出。”

正是因为Flow应用广泛,所以已经被四分之一的工程师采用,而不只是AI部门的人。Facebook如何保持内部的开放性?Flow正是一个完美的例子,它不会将研究藏起来,而是让所有人都能看见。

投资回报

在AI和机器学习社区,Facebook同时追求短期和长期目标赢得了一些尊敬,但它无法保证一定能够达到公司制定的长远使命,这些使命超前了10年,被扎克伯格、斯科勒普夫和整个公司所吹捧。

失败仍然是可能的,败因还很多,隐私问题可能是最显眼的一个。当用户意识到Facebook正在分析每一篇帖子、每一张图片时,Facebook会更加深入用户的生活,用户会反抗。

还有财务问题:为AI提供资金,Facebook高管和董事会需要看到回报!斯科勒普夫坚持认为,Facebook管理团队对FAIR和AML的投资回报并无担忧,他说:“我们认为,在未来5年至10年内,两个团队要获得回报都是很容易的事。我们不会评估它们的投资回报率,因为一个或者两个项目就能达成目标。”

新的AI技术可以解释图片内容,可以贴近语境,以前根本做不到,但是要达成目标还很遥远。

Facebook所有的领导者都在强调开放,如果情况发生了改变,领导者后退,又会造成什么后果呢?

蒙特利尔大学深度学习实验室主管、勒坤在贝尔实验室工作时的同事约书亚•本吉奥(Yoshua Bengio)认为:“如果他们背弃这一主张,和之前许多公司的选择一样,Facebook可能会在研究上丧失优势。在企业内,到了某个时间点会形成一种自然趋势,事情发展不顺利,要求研究人员拿出短期成绩,伤害了实验室……然后连企业的长远前景也受到了伤害。”

本吉奥认为,在产品人员和研究人员之间安插强人(比如勒坤),确保不会施加太大的短期压力,这是一大挑战。本吉奥还说:“未来,在Facebook内部仍然会面临类似的挑战,因为短期目标所带来的压力会持续存在。”

就连勒坤也承认,情况可能会发生变化,而且毫无征兆。

“没有人要求我们证明自己存在的价值,至今还没有。”勒坤称,“亲历了几个产业实验室的生与死之后,我明白了一个事实:除非你拿出一些东西,告诉别人说,这些东西是我们正在为公司开发的,我们花掉所有钱的原因在这里,否则无法持续很长时间。”

不怕别人使用自己的技术

正是因为这些原因,勒坤和坎德拉在建设实验实时才会小心谨慎,避免因为盲目追求成功的最大化而胡乱扩张。

“你越清楚组织应该做什么,就会发现做的事情越少。”斯科勒普夫说,“如果你让我做10件事,当中会有3件事不错,还有7件事糟糕。所以说你最好指望挑的3件事是对的。反之,如果你说这个组织只做一件事,你就会真正看清它是怎样做的。我们有两个不同的问题需要解决:为未来进行研究,找到办法将研究成果用在目前的产品中。”

正因如此,Facebook需要寻找有效的方式在组织之间分享创意。坎德拉称:“让员工可以流动,这是最理想的情境,我们正在积极构建。AML的员工可以加入FAIR,反之亦然。”

这招的确管用。坎德拉称,Facebook的面部识别团队是从FAIR起步的,后来转移至AML,因为它的工作与产品关联度越来越大。还有计算机视觉团队,它也需要跨越2个部门。

勒坤称,一个部门建设了基础设施,后来设施又转至另一部门,这种事情很多。例如,DeepText虽然由AML直接实现,但它起源于FAIR,最开始时FAIR试图用卷积神经网络、其它深度学习技术来给文本分类、理解文本内容。

有一些人表示担心,开放可能会对业务构成威胁,但是勒坤很放心。让外部人获得Facebook代码,对Facebook本身也是有利的,如果这些人很优秀,Facebook可以招入公司,它还可以直接使用别人的成果。

“如果别人使用我们的技术,这是好事一件,因为它的价值并不局限于技术本身。”勒坤称,“我们可以挖掘技术的潜力,因为我们占据了独特的市场地位。在社交业务上,我们相当庞大。如果我们发明了技术,可以应用于产品,我们就会占据优势,因为我们的速度最快。从另一方面来看,如果我们未能赶在别人之前利用好技术,那就是我们自己的问题。”

解码Facebook的AI野心:靠的是两张王牌和两个部门