必读内参:独家编译60P+谷歌下代人工智能演讲PPT

智东西(公众号:zhidxcom)
文 | 小智

本周Google CEO Sundar Pichai 在官方博客宣布开源自己的最新机器学习系统TensorFlow。Google资深系统专家Jeff Dean还在10月份的湾区机器学习大会做了演讲,题为《智能计算机系统的大规模深度学习》。这个开源的引擎可以使得全世界都能自由地分享底层代码。

TensorFlow是什么意思呢?Tensor就是张量,也就是N维数组;其本身采用的是DataFlow数据流模型。所以人工智能科技公司出门问问的NLP工程师李理形容TensorFlow为“张量从图的一端流动到另一端”。Google相信它可以加速人工智能的发展。

Jeff Dean是更是硅谷的传说级人物,据说编译器从不会给这位大神警告,因为在Dean面前,编译器才是被警告的哪一位。大神还是挺帅的~

必读内参:独家编译60P+谷歌下代人工智能演讲PPT

新版本新在哪?

据Dean所述,TensorFlow不仅非常适合深度学习,也同样适合是其他形式的人工智能,包括强化学习和逻辑回归。这也就是其与Google上一代的系统DistBelief的主要不同。DistBelief非常擅长深度学习并帮助Google在2014年赢得了重要的大型视觉识别的挑战。但是Dean说TensorFlow还要比之快上一倍。

还是先来介绍一下什么是深度学习。深度学习是一种日益强大的人工智能形式。通过分析某种事物成千上万的照片,这种人工智能技术就能学会识别该事物,哪怕是它从来没有见过的。比如猫和狗,树和云,鲜花和食物等等。

再来介绍一下深度学习的基本原理。深度学习依赖于近似人类的大脑神经元的神经网络系统。大致上是这样的,人们向系统输入海量数据,系统就学会执行一项任务。举例而言,给它们无数的早午晚餐的照片,系统就能学会认识一顿饭是什么样子的。给它们海量的口语,他们就能听懂你说什么。给它们海量的老电影的对话,它们就能进行一个对话,尽管不算完美,但是也还不错啦。

近年来,其他公司和研究人员在这人工智能方面也取得了巨大的进步,包括Facebook、微软和Twitter等等。他们中的一些已经开源了类似TensorFlow的软件。包括纽约大学研究者原创的Torch(这些人中的许多现在都在Facebook),也包括Caffe和Theano。但是Google这次的动作却更为显著,因为Google的人工智能引擎被人们认为是世界上最先进的。

必读内参:独家编译60P+谷歌下代人工智能演讲PPT

Google使用c++编程语言建立底层TensorFlow。但在为这个人工智能引擎开发应用的过程中,程序员既可以使用c++也可以使用像Python这种最受深度学习研究者欢迎的语言。Google希望外界能够将TensorFlow扩大到其他语言的工具,包括Google Go,Java,甚至是Javascript,这样程序员就能掌握更多的构建程序的方式。

Dean的演讲的主要介绍了起始于2011年的Google大脑项目,各种万亿级的原始数据如何被系统自动消化;介绍了Google是如何快速训练大型模型系统,以及深度学习在Google有哪些显著的影响;着重介绍了第二代深度学习系统TensorFlow的开发初衷,应用例子以及性能优势。

一系列相关报告(包括Dean演讲报告的中文版本)请关注智东西公众号:zhidxcom回复相应关键词进行下载。具体下载攻略参见文末。

Google如何保持优势?

深度学习创业公司Skymind的经营者克里斯·尼科尔森(Chris Nicholson)说:“只是一个很好玩的事情。Google领先了其他公司5-7年,而他们将工具开源,就会让其他所有人的机器学习做得更好。”

可以肯定的是,Google并没有给出所有的秘密。目前,该公司只是开源了这个人工智能引擎的一部分。他们只是分享了引擎顶部的一些算法,却不包含驱动引擎的先进的硬件底部代码(显然这部分是要收费的)。但Google至少给出了核心软件的重要数据,他们以前可从来没这么做过。

谷歌成为互联网最主导力量在很大程度上是因为其数据中心里独特而强大的软件和硬件,软硬件都能帮助运行所有的在线服务,这样就可以兼容来自全球各地的前所未有的数据和流量。通常情况下,Google直到开始使用下一代设计才会分享现有的软件。即便如此,他们也只是共享介绍其技术的研究论文,却并不开源其代码。这就是Google保持技术优势的方法。

然而这次的TensorFlow,Google显然更给力。这次的开源打包开放了一大堆东西。在开源工具里,谷歌将提供一些神经网络模型和算法的示例,包括识别照片模型,识别手写数字以及分析文本。Dean说:“我们将提供在公共数据集训练这些模型所需的所有算法。”Dean认为这次是一个相当大的转变,TensorFlow能帮助很多公司开创性的建立数据中心软件,包括Google文件系统,MapReduce和数据块定位。

根据Google工程师Rajat Monga的说法,TensorFlow在某些方面仍然绑定了Google的内部架构,这也就是为什么Google没有开放所有的TensorFlow。尼科尔森指出,你也可以打赌,Google保留一部分代码是为了维持其本身的优势。

然而,不少业界人士认为,Google这次开源的版本只是一个新的单机深度学习工具包,而市面上真正缺乏的能够支持大规模深度学习的分布式框架或系统,这次的TensorFlow并没有提供。Google也并没有提供测评数据显示TensorFlow想必已有的单机深度学习工具在性能上有哪些优势。出门问问CEO李志飞评价TensorFlow“对学术界意义不大,对工业界意义挺大”。

期待反馈

Dean说:“我们期待大家能接纳TensorFlow为众多机器学习算法中很好的一种,并能够通过众多不同的有趣方式来改善TensorFlow。”

谷歌并没有把这次的开源项目像以往其他的开源软件一样看成是独立第三方。谷歌本身会在网站Tensorflow.org管理该项目。Google在Apache 2许可下共享代码意味着任何人都可以按照自己的意愿免费试用代码。Dean说:“我们的许可条款应该足以说服大家,这真的是一个开放的产品”。

其他人可能不同意。深度学习创业公司DeepMind,尽管已经归Google所有,但还是在使用Torch。但至少,一个开源TensorFlow给开发者提供了更多的选择。这本身就是一件好事。

多伦多大学专攻深度学习的杰夫•辛顿教授的博士生Jimmy Ba表示:“在过去的三倒四年里,深度学习领域的公平竞争促进了许多库的建立,这些都使得研究人员能够更专注于他们的模型。所以人们其实不必担心潜在的软件工程”。

即使TensorFlow在手,建立深度学习应用程序仍然需要一些严格的工艺。但这也可能会在未来几年发生改变。Dean指出,谷歌深度学习开源项目和谷歌深度学习云服务不是相互排斥的。但在短期内,谷歌只对分享代码感兴趣。但与此同时,Monga认为这也将整体提高机器学习的水平,滋生各种各样的新想法。这些新想法仍然会找到它们的路线重新反馈会Google。“任何机器学习的进步,也会成为我们的进步”。

下载攻略

好了,下载攻略来了。关注智东西(公众号:zhidxcom),本期必读内参一共提供了4篇精华内容供读者下载。

回复关键词“中文版”,可下载智东西独家汉化的Jeff Dean 2015年湾区深度学习大会演讲报告中文版;

回复关键词“原版”,可下载其演讲原文内容;

回复关键词“白皮书”,可下载11月9日谷歌发布的《多样化分布系统大规模深度学习》TensorFlow白皮书;

回复关键词“往期”,可下载Jeff Dean往期演讲的《快速训练大规模神经网络的技术与系统》。

必读内参:独家编译60P+谷歌下代人工智能演讲PPT