智东西(公众号:zhidxcom)
文 | 心缘

智东西7月17日消息,在最近的百度AI开发者大会(Baidu Create 2018)上,英特尔人工智能事业部副总裁兼人工智能架构总经理Gadi Singer发表演讲,披露了和百度的一系列深度合作,包括至强处理器优化PaddlePaddle深度学习框架、FPGA赋能百度工作负载加速即服务以及Movidius视觉处理器(VPU)支持百度Xeye智能摄像头。

会后,Gadi Singer接受了智东西同少数国内媒体的专访,就英特尔和百度的合作细节、英特尔在AI领域的前瞻性战略布局、AI发展面临的挑战以及对如何做好AI芯片进行深入交流。Gadi Singer表示,英特尔将聚焦硬件、软件和生态系统对AI展开全方位布局。

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地

▲英特尔人工智能事业部副总裁兼人工智能架构总经理Gadi Singer

一、和百度长期合作,三个领域推进AI落地

百度和英特尔有超过十年的合作历史。Gadi Singer表示,五年前,他们的合作迈出很一大步,两家公司建立了面向移动互联网的战略联盟,一起打造智能云手机生态环境。两年前,双方在AI方面有了更强的合作。

Gadi Singer重点介绍和百度合作的三款项目:至强处理器优化PaddlePaddle深度学习框架、FPGA加速工作负载和Movidius处理器助力Xeye智能摄像头。最后,Gadi Singer特意介绍了英特尔针对神经网络模型的开源nGragh编译器。

1、至强处理器优化百度PaddlePaddle平台

深度学习平台PaddlePaddle是百度于2016年8月底开源的并行分布式全功能深度学习框架,能够让开发者和企业安全高效地满足图像识别、图像分类、机器翻译和自动驾驶等多领域的AI技术需求。本次百度AI开发者大会公布了PaddlePaddle 3.0版本。

PaddlePaddle在英特尔至强可扩展处理器上性能的优化,使得AI应用的运营效率进一步提高,开发者与数据科学家可以使用支持全球数据中心和云计算的硬件来不断改进AI算法。

英特尔对PaddlePaddle的优化涵盖计算、内存、架构、通信等不同层面,比如通过AVX Intrinsics函数、BLAS库(例如MKL, OpenBLAS)或定制CPU函数优化数字运算的效率,以及通过MKL-DNN(面向深度神经网络的英特尔数学核心函数库)优化卷积神经网络(CNN)。

Gadi Singer表示,优化AI框架有两个非常重要的方式:其一,为框架挑选合适的库和函数 ;其二,对每个AI工作负载进行分析,从而对它进行适合的培训,以达到更好的效果。

2、FPGA加速百度工作负载

FPGA是指现场可编程门阵列(Field Programmable Gate Array)。2015年,英特尔以167亿美元收购FPGA巨头Altera,为未来算力的发展趋势奠定基础。

目前百度在其开发的异构计算平台上部署了最新FPGA技术。这一技术的应用在定制化和配置方面更加灵活,对于要求高的工作负载可实现更高的性能和能效,还能开发低延时的应用。

据Gadi Singer称,FPGA已经被好几家公司所验证,既可提供较高带宽和较低时延,同时又支持大量数据传输的工作负载,对AI类应用而言是非常强有力的选择。FPGA赋能百度云上的工作负载加速即服务,可以为百度的异构计算环境提供更多元化选择。

3、Movidius VPU助力百度Xeye智能摄像头

2016年,英特尔收购视觉处理初创公司Movidius。2017年7月,英特尔推出以“PC鸡血神器”著称的Movidius神经计算棒(Movidius Neural Compute Stick)U盘产品,为机器的深度学习提供超大“血包”。

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地

▲使用Movidius神经计算棒进行车辆识别

Movidius处理器被广泛应用于安全监控摄像头和无人机,有专门用于计算机视觉引擎,同时兼备用于通用型推理演绎的引擎,两者组合在一起,可以更好实现计算机视觉和设备端的演绎推理,为集计算和AI于一身的终端设备提供非常有吸引力的解决方案。Movidius研发的视觉处理单元(VPU)具备两大优势:一是直接在本地摄像头运行神经网络,缩短延迟时间,节约带宽和成本;二是用前端算法降低能耗,实现长期续航。

百度Xeye摄像头采用英特尔Movidius Myriad 2视觉处理单元(Movidius Myriad 2 VPU),为机器学习算法提供更低功耗的推理引擎,让此款摄像头能够分析物体和手势并识别人体,从而为零售行业用户提供个性化的购物体验。

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地

▲基于Movidius™ Myriad X VPU运行GoogleNet V1网络的推理

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地

▲Movidius芯片组和Movidius Myriad X VPU(红色方框标注)

百度机器学习算法通过和英特尔定制化VPU解决方案强强联合,能以更低功耗优化运营,为零售业提供高性能、低功耗的视觉智能。

4、nGraph编译器连接PaddlePaddle平台

最后Gadi Singer还特意介绍了nGragh。nGraph是英特尔在今年3月份开源的一款面向各种设备和框架的深度神经网络(DNN)模型编译器,能与多种深度学习框架进行连接。nGraph的所有输出结果,最终都能在CPU、Movidius、FPGA和未来的Neon上运行。

百度和英特尔已将PaddlePaddle与英特尔nGraph编译器整合。在其支持下,数据科学家可专注于数据科学研发,而无需担心如何将 DNN 模型部署到各种不同的硬件平台做高效训练和运行。

二、三分战略布局,抢滩AI市场

在智能手机时代,英特尔曾遭遇水土不服,晚一步入局移动芯片的英特尔在智能手机应用处理器领域长期举步为艰。AI是继移动互联网后的下一个时代,英特尔也开始在AI领域布下重阵。

根据Gadi Singer的判断,在下一波大的技术浪潮前,将有好几个小的AI技术浪潮。机器学习改变整个计算世界格局,使人们用更短时间处理更多数据,而这六年只是AI在演进过程中的开头,在这个阶段大部分技术突破都发生在深度学习领域,持续学习、增强学习方面的技术也发展地很快。

他认为,如果把眼光放到宏观层面来看,机器学习正与新的深度学习技术发生集成。现在深度学习可以进行物体识别、分类以及异常检测,比如说识别一个人体细胞三维图、判断恶性细胞,这些工作都需要复杂认知能力。而随着未来AI的进一步发展,认知能力更上一层的平台则是理解人类世界、和人有相同的体验。因此在智能家居、智能车、照顾老人的机器人方面,机器需要更好地理解人类的对话和请求。想要达到这样一个目标,深度学习和机器学习能力都很重要。

面对愈发抢手的AI市场,Gadi Singer将英特尔的AI战略发展分为三大部分:硬件、软件和生态系统。

1、硬件

至强处理器属于通用型处理器,是AI的基础。Gadi Singer表示,大部分AI的演绎推理都是在至强处理器上运行。英特尔不断丰富至强的指令集,从而实现AI工作负载的加速,并让软件堆栈能够更好地加以利用。

除了通用型,英特尔还有一些专用型的芯片产品。不仅在功耗方面从几十毫瓦到400瓦实现全面覆盖,同时也覆盖从终端设备边缘到数据中心的不同计算环境。英特尔认为没有万能药,不可能说用一款产品就能满足不同的使用场景。因此,英特尔在硬件产品方面提供多元化的产品线。

2、软件

在软件战略部分,针对不同硬件,英特尔提供优化的堆栈。不管是数据科学家还是编程员,英特尔对每个用户端都提供一致的数据体验。比如英特尔今年3月开源的nGraph编译器,不仅能对接英特尔所有的硬件产品,还能和PaddlePaddle、Tensorflow、 caffe、MXnet等其他深度学习框架连接。这对用户来说,是个简化易用的体验。

3、生态系统

英特尔在整个AI生态系统提供支撑作用。Gadi Singer认为,生态系统对计算涉及的各个领域都很重要。在他所目睹的技术变革历史中,AI的发展变革速度史无前例,新技术的出现和广泛使用可能只需 18-24个月的时间。因此,英特尔非常注重和AI领域的学术界以及思想领袖保持密切的联系。英特尔在拥有自己的研究院和实验室的同时,和许多顶级学府开展合作,与他们进行联合研究或为他们提供资源支持。此外,为了更好的参与开源社区,英特尔还将包括nGraph在内的一些技术开源出来。

据Gadi Singer称,英特尔也积极参与标准化组织工作。比如在去年,英特尔宣布支持由微软和Facebook联合发布的开放式神经网络交换(Open Neural Network Exchange,ONNX)格式,这一格式用于表示深度学习模型的标准,方便模型在不同框架间之间进行迁移。这是迈向开放生态系统的重要一步,对业界共享好的技术很有帮助。Gadi Singer还强调到,英特尔重视和行业领先者们进行合作,完成一些概念验证,共同打造技术解决方案。

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地

▲中间为英特尔人工智能事业部副总裁兼人工智能架构总经理Gadi Singer

三、AI从技术到落地到最大挑战

当被问及从企业角度看AI落地的最大挑战,Gadi Singer谈到一个具体实例,即近年来大热的深度学习模型——生成对抗式网络(Generative Adversarial Nets,GANs)。GANs的概念在2014年被提出,到了2016年已经广为使用。2018年,GANs已经做到第三代,在机器学习研究方面取得了新的进展,可以直接合成新的动物图像并从图像中创建3D图形。

根据Gadi Singer所言,这个技术的采纳主要存在两大障碍。

其一,找到真正有生命力有价值的新技术,而不是一次性有效的新技术。尽管新的技术想法和实验层出不穷,真正有价值的技术生存下来的却并不多。

其二,大量数据。很多新的技术需要大量数据才能展现价值和通用性。然而对于部分数据种类,尤其时牵扯到隐私的数据,可能会需要较长时间来完成数据采集。

四、做好AI芯片的关键因素

Gadi Singer认为做出好的AI芯片产品,有两点不可或缺。

其一,弄清楚设计这个处理器究竟是为了解决什么问题。今年已经是Gadi Singer在英特尔工作的第35年,他曾经在多个部门做过不同类型的产品,因为AI领域变化太快,要解决的问题本身也在持续改变, 解决方案本身具有挑战性。假设不久之前有人开发出针对AlexNet、GoogleNet的完美解决方案,但这个方案到了2019年、2020年可能就无法称之为好的解决方案,因为会出现新的它无法解决的问题。因此,Gadi Singer认为,如果想要AI芯片解决方案成功,很重要的一点就是做好趋势判断,能够基于这种判断做出适度合理的猜测。

其二,AI芯片本身由不同部分组成,这些不同功能块之间要有很好的平衡。如果芯片只是在某一功能块(比如Tensor Multiplication)做得完美,但整体功能没有做到均衡,并不足以解决实际场景问题。比如Movidius VPU和NNP主要是加速的作用,但不可能把它们做成只具备加速功能的芯片。所以AI处理器解决方案要注重加入不同元素,可以针对某些场景解决特定问题,但解决问题的范围不能太过狭窄。

结语:全栈式解决方案,决胜AI时代

万物互联时代,英特尔正在全面进军AI领域。目前,英特尔已经打造了一套完整的全栈式AI解决方案,包括至强处理器、Nervana神经网络处理器等硬件,FPGA、网络和存储技术等技术,MKL和DAAL等用于深度学习和机器学习的数学函数库,以及支持和优化Caffe、Neon等深度学习框架等。

在推动AI性能升级和技术大众化的过程中,英特尔不断和百度等企业进行深入合作。在十多年的合作史间,从智能化终端设备,基于至强可扩展处理器的大规模数据中心,到利用FPGA加速工作负载,再到优化PaddlePaddle开发平台,英特尔为百度提供丰富的产品和技术专长,加速AI技术的进步和落地。

至于英特尔全方位AI战略布局将如何开花结果,市场会给出最终的答案。

对话英特尔AI事业部副总裁:携手百度,推进三大领域AI落地