20170810034456306副本

对话英特尔戴金权:BigDL开源一年后 AI飞入寻常百姓家

Lina人工智能2018/01/19

智东西(公众号:zhidxcom) 文 | Lina 不知道大家有没有这样的感觉,人工智能、深度学习等领域好像 […]

智东西(公众号:zhidxcom)
文 | Lina

不知道大家有没有这样的感觉,人工智能、深度学习等领域好像每个星期都能取得某项突破性的学术进展,人工智能时代似乎下一秒就能降临全球,然而回过头来看自己的工作生活,又觉得离深度学习还远得很,八杆子都打不着。

其实,工业级机器学习/深度学习系统是一条非常复杂的大数据分析流水线,算法研究只占了其中很小一部分,围绕它的还有一系列数据收集、数据处理流程要走,这些都不是科研人员关心的事情,而是大数据工程师们关心的问题。

WechatIMG1249

因此,深度学习研究人员和大数据普通用户中间存在着断层。

为了进一步拉近深度学习科研人员和真正使用的深度学习的大数据工程师、分析师等的距离,在一年多前,英特尔开源了BigDL项目,让用户可以轻松、简单地在大数据集群中进行深度学习应用(用SQL就能写深度学习应用哦),而且这一项目目前已经受到了AWS、京东、MasterCard等众多行业用户的欢迎,是英特尔推动深度学习平民化/民主化的“重磅武器”。

20170810034456306

(英特尔高级首席工程师兼大数据技术全球CTO戴金权)

为了进一步了解BigDL项目的神奇之处,以及开源一年来BigDL获得的众多进展,智东西近日专程来到了英特尔的上海总部,与少数媒体一同对该项目的负责人、英特尔高级首席工程师兼大数据技术全球CTO戴金权进行了详细采访。

一、深度学习与大数据用户的断层

在现实生产环节中,生产数据通常是存储在大数据分布集群里的,这个集群可能是几千几万台计算机的规模。

而一般深度学习的框架并不能支持在这些数据存储的集群上进行直接运算,因此往往还要单独设一个十几台计算机的集群,不断将数据从大集群拷贝到小集群中进行运算,耗时耗力且浪费资源,成为深度学习落地的一大阻碍。

而且在实验室里,用于深度学习实验的数据往往都是已经进过清洗、预处理的“干净数据”,研究深度学习的专家学者们可以直接拿来使用。

WechatIMG1229

然而在现实生产环节中则不然,正如上文所说,工业级机器学习系统是一条非常复杂的大数据分析流水线,机器学习算法只占了其中很小一部分(比如上图中的黑色方框部分),还有其他数据收集、数据清理、特征提取等众多环节,需要工程师们去一一逐步完成的。

因此,如何直接在数据存储的地方进行深度学习应用与数据预处理,成为现实生产环节中遇到的考量。

二、让深度学习离大众近一点,再近一点

BigDL的研发初衷就是为了解决上文提到的这一问题。

WechatIMG1250

由于BigDL是大数据框架Spark生态的一部分,因此它可以跟现有的大数据平台无缝衔接,让企业可以在存储数据的同一个集群上直接进行深度学习的应用(比如实时图片搜索、人脸识别),也可以在这个集群上进行数据清洗、特征提取、图分析等数据预处理工作。

WechatIMG1241

对于个人而言,你可以用现有的软件工具,在Spark工作流等大数据工具之中直接调用深度学习应用,比如在导入一个能识别狗的AI模型之后,直接写一句SQL语言就能在上千万张图片中找出“狗”的照片,不需要重新学习AI相关的编程语言。

对于公司而言,则可以直接在存储数据的同一个Hadoop/Spark集群上运行深度学习工作负载、使用深度学习来进行数据分析,让数据处理更高效、更易用。比如MasterCard就在使用利用BigDL进行用户-商家的倾向度分析,利用深度学习有针对性地推出促销广告,提高促销准确度。

WechatIMG1240

而且,这一框架非常受云服务厂商的欢迎——毕竟他们拥有最大规模的计算机集群。对于AWS、阿里云、微软云、京东云这种向客户提供深度学习平台的云服务厂商来说,他们能够让深度学习在集群上运行得更快速、更高效、更受用户欢迎。而且这些云服务厂商的网站也提供了各种教程,帮助用户在自己的云平台来使用BigDL。

目前,BigDL不仅能够与现有大数据生态系统无缝集成,还支持TensorFlow (TensorBoard)、Caffe、Torch等一系列现有深度学习框架,并且能够支持大量开箱即用的高级算法和模型,比如用于视觉处理的OpenCV-on-Spark、还有3D Convolution、Tree-LSTM等等。

三、研发两年多,团队横跨中美

BigDL项目在2016年12月30日正式在Github上开源,这也就意味着这个项目现在免费向用户开放,而且戴金权说,他们在Github上还收到了众多社区用户对于该框架的的代码贡献,用于BigDL的优化与迭代。

截止至上周,英特尔总共发布了四个主版本的BigDL(0.1.0~0.4.0),支持Spark 1.5~2.2, Scala 2.10~2.11, Python 2.7、3.5~3.6。

戴金权告诉智东西,BigDL项目在正式开源之前已经经过了一年多的研发,一开始只是因为英特尔在实际生产过程中发现了大数据在处理深度学习方面的问题,于是一个小团队开始进行原型探索。到目前为止,整个BigDL项目已经有二三十人规模,团队分布横跨中美。

由于这一项目既包括大数据相关技术,又包括深度学习相关技术,因此涉及到的技术横跨多个领域,包括大规模分布式系统、深度学习框架、算法模型、分析和数据模型等等——而在大数据生态系统中,英特尔又恰恰是重要的技术领导者,戴金权本人也是Spark Committer,参与了Spark本身的开发贡献。

下一步,戴金权和他的团队们将研究如何进一步提高BigDL的易用性,降低深度学习的应用门槛,包括集成更多深度学习算法,进一步优化框架等。

结语:科技巨头推进深度学习平民化

巧合的是,最近谷歌推出了Cloud AutoML工具,能让你一行代码都不用写,鼠标点一点、几分钟就能生成所需要的机器学习模型。如果将利用谷歌Cloud AutoML生成的深度学习模型,导入到英特尔BigDL框架下直接使用,简直堪称一键式深度学习应用,人人都能做AI大师。

无论是谷歌的AutoML还是英特尔的BigDL,都是为了推进深度学习民主化的进程而创立的,它让拥有资源的大公司不再处于垄断地位,小公司或者个人即便没有拥有格外优秀的AI技术人才,也能将机器学习为己所用——这是众多科技巨头都在大力推进的方向。

未来,AI也许会成为我们工作生活中一项不可或缺的工具,像Word、Excel一样简单易用,人人都能拥有AI的力量。

zhidx