智东西(公众号:zhidxcom)
文 | 韦世玮

智东西6月21日报道,昨日,在O’Reilly和英特尔人工智能大会上,英特尔公司架构图形与软件集团副总裁、数据分析技术总监马子雅针对“统一大数据分析和人工智能从而更快地大规模洞察”这一主题发表了演讲。

会后,智东西与少数媒体对英特尔公司架构图形与软件集团副总裁、数据分析技术总监马子雅,英特尔高级首席工程师、大数据技术全球CTO戴金权进行了采访。在采访中,马子雅对英特尔的分布式深度学习库BigDL和Analytics Zoo技术的应用、优势等方面进行了详细的阐释。

对话英特尔马子雅/戴金权:成立大数据AI创新院,加速生态整合

同时,英特尔还将在中国设立大数据分析和人工智能创新院,由戴金权负责。该研究院将与中国进行更广泛的生态系统合作,加快统一的数据分析和人工智能技术在中国的创新和应用。

一、BigDL+Analytics Zoo:提供端到端的开发和部署效率

对话英特尔马子雅/戴金权:成立大数据AI创新院,加速生态整合

在主题演讲活动中,马子雅表示,当下人们正处于一个数据变革的时代,人类历史上90%的数据都是在过去几年产生的,50%的数据都是短短两年所生成的。

因此,企业的生产发展需要高效地利用数据分析和人工智能来提高生产效率,以扩大竞争优势。同时,马子雅表示,人工智能的真正落地需要一个完整的数据分析流水线,而这也是英特尔选择开源BigDL的重要原因。

在加快数据分析及人工智能大规模应用方面,马子雅对英特尔开发并开源的BigDL和Analytics Zoo技术进行了介绍。

BigDL是建立在大数据平台(Hadoop/Spark)之上原生的分布式深度学习库,它为用户提供了在Apache Spark(快速通用计算引擎)上丰富的深度学习功能,以帮助 Hadoop(分布式系统基础架构)和Spark成为一个统一的数据分析平台,为整个数据分析和机器学习过程提供比现有框架更加统一和集成化的支持。

据英特尔表示,它能够实现主流深度学习框架TensorFlow、Caffe以及Torch等同样的功能。同时作为Spark标准组件,它还能够和Spark大数据生态系统的不同组件很好地整合在一起。

Analytics Zoo是英特尔基于至强计算平台、傲腾数据存储器,并结合英特尔云服务推出的大数据分析+AI的平台。它能够将Spark、TensorFlow、Keras和BigDL合并到一个集成管道中,方便地扩展到企业已有的大型Apache Hadoop/Spark集群,进行分布式训练或推理。这让用户能更轻松地开发基于大数据、端到端的深度学习应用。

对话英特尔马子雅/戴金权:成立大数据AI创新院,加速生态整合

BigDL和Analytics Zoo这两个平台,不仅能进一步地提高资源利用率和端到端的开发及部署效率,同时还能降低普通大数据用户和数据科学家在使用深度学习进行数据分析和构建人工智能应用时的门槛。

马子雅还表示,英特尔在过去的几个月中,将Analytics Zoo基于英特尔最新的Optane(傲腾)内存技术上和OpenVINO技术进行了优化,它的深度学习、模型训练以及推理性能均得到了提升。

Analytics Zoo平台与美的、韵达、欧洲核子研究中心(CERN)等企业和科研组织进行了合作。比如,通过与Analytics Zoo的合作,韵达在运输线路、贮存等方面均得到了优化,这为韵达带来了七千万美元运营成本的节省。同时,英特尔与腾讯云、阿里云、百度云以及第四范式、科沃斯等企业均有项目合作,范围涉及智慧医疗、智慧教育、智慧零售等多个领域。

对话英特尔马子雅/戴金权:成立大数据AI创新院,加速生态整合

二、为客户提供全栈式的AI解决方案

马子雅提到,在如今大数据分析和人工智能平台逐渐融为一体的驱使下,英特尔将进一步为客户提供全栈式的人工智能解决方案,构建硬软件协同发展,其中包括硬件和软件两个层面。

硬件方面,英特尔将提供包括CPU、GPU、FPGA、加速器、网络等涵盖前端到数据中心,专用到通用的产品组合。

软件方面,则是包括nGraph、BigDL、Intel Deep Learning  Studio等框架、数学库以及工具在内的优化软件。

三、进一步降低BigDL和Analytics Zoo应用门槛

演讲结束后,智东西与少数媒体记者对英特尔公司架构图形与软件集团副总裁、数据分析技术总监马子雅,英特尔高级首席工程师、大数据技术全球CTO戴金权进行了专访。

数据清洗问题是当前大数据+AI应用的一个难点。在智东西问及Analytics Zoo对于数据清洗方面的功能优化时,戴金权表示,数据清洗是一个非常繁琐的过程,他们将在Analytics Zoo的下一个版本中加入类似AutoML的新工具,可以进行时间序列异常检测和自动选择生成特征。

以英特尔与欧洲核子研究中心(CERN)的合作为例,CERN每秒有四千万粒子,生成1PB的数据。处理数据的第一步,就是要将这个过程中无用且重复的数据过滤掉,以搭建包括数据清洗在内的整个端到端的流水线。

在BigDL和Analytics Zoo的应用门槛方面,马子雅表示,起初这些技术几乎都在与终端客户合作,如今为了覆盖更多的用户,英特尔必须降低门槛,把功能整合到服务或产品中,让用户可直接用云服务、原始设备制造商以及软件中提取所需的功能。

对话英特尔马子雅/戴金权:成立大数据AI创新院,加速生态整合

▲基于英特尔OPENVINO、英特尔至强可扩展平台的深度学习推理-脑部肿瘤图像分割模型加速解决方案

四、硬软件协同发展,提供更完整解决方案

今年,硬软件协同发展的“大数据分析+AI”平台也是英特尔重点发力的内容之一。目前,英特尔共有15000名软件工程师。

在加强人工智能生态行业的合作上,马子雅认为,英特尔更像是一个人工智能解决方案的提供者,主要帮助客户将人工智能更好地利用到他们的生产和生活中。

在Analytics Zoo的兼容性方面,马子雅提到,由于Analytics Zoo的性能提升和优化主要是英特尔平台上进行的,它虽然可以兼容其他X86的CPU,但在非英特尔平台上使用,它的性能可能会受到一定影响,无法达到最佳效果,而在英特尔平台上使用时才能享受到它的更多特性。

硬件层面,英特尔将为客户提供更完整的解决方案,除了至强处理器和GPGPU外,在硬件的存储和网络方面也进一步地研发与更新。

值得一提的是,在英特尔AI芯片的未来规划上,马子雅表示,英特尔不仅仅集中在计算方面,将继续对傲腾技术、网络架构技术等存储和网络方面进一步研发和更新。另外,包括CPU、GPU、FPGA等新规划都在逐步推进中。

结语:英特尔进一步推动AI与大数据分析整合发展

无论是BigDL还是Analytics Zoo技术,它们的开源都在深度学习使用和人工智能应用构建上,给大数据用户和数据科学家带来了极大的便利,进一步加速了人工智能在人们生活中真正普及和落地的进程。

另一方面,英特尔在人工智能领域的不断发力,为企业带来了促进产品和业务发展的各种技术支持,同时让大家看到了人工智能与商业应用相结合的更多可能性。

未来,大数据分析和人工智能将如何进一步实现整合,如何更快更好地落地,如何从云端到智慧空间能有效运用,这些都是值得我们思考的,期待人工智能给人们生活带来更多的精彩。