智东西(公众号:zhidxcom)
文| 李水青
智东西5月20日报道,律动的灯光,科幻般的仿真场景,百度CTO王海峰如穿越般“闪现”在WAVE SUMMIT 2020深度学习开发者线上峰会上。
王海峰宣布,百度飞桨(PaddlePaddle)版图重磅升级,同时发布量子机器学习开发工具量桨(Paddle Quantum),使飞桨成为了国内首个、也是唯一支持量子机器学习的深度学习平台。
百度集团副总裁吴甜等人也正式对外发布飞桨最新的全景图,揭秘飞桨开源深度学习平台的7项新品和23项升级,飞桨企业版EasyDL零门槛AI开发平台的1项新品和4项升级。
2016年,百度深度学习框架PaddlePaddle正式开源,成为中国首个开源开放、功能完备的深度学习框架。PaddlePaddle支持千亿规模参数、数百节点的高效并行训练,使得国产深度学习框架在谷歌、Facebook等国际巨头的包围中占据一席之地。
在本次峰会上,百度CTO王海峰开场即披露了一组飞桨数据:累计开发者数量已超过190万,服务企业数量达8.4万家,发布模型数量已超过23万个。
王海峰说,在“新基建”大背景下,深度学习平台作为智能时代的操作系统,是产业智能化的基础技术底座,是新型基础设施的重要一环,与云计算、5G、物联网、数据中心等互相融合促进,加速产业智能化进程。
距离去年第一届深度学习开发者峰会已经一年多了,其它科技企业比如旷视也推出自研深度学习框架,夯实了国产开源力量。而在这个时间节点,百度PaddlePaddle又带来了新的跨代升级。
一、正式对外发布飞桨最新的全景图
峰会现场,百度集团副总裁吴甜正式对外发布飞桨最新的全景图,包含飞桨开源深度学习平台和飞桨企业版两部分。
▲飞桨最新的全景图
飞桨开源深度学习平台部分,包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。
同时,随着企业应用需求越来越强烈,飞桨升级产品架构,推出飞桨企业版,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML,助力各个企业进行AI创新。
百度集团副总裁吴甜说,飞桨深度学习平台是百度“AI大生产平台”的基础底座。百度AI大生产平台使得开发者、企业无需从头学习难度高、迭代快的前沿科技,避免重复“造轮子”。
二、7项新品和23项升级
本次飞桨开源深度学习平台新发布了7项新产品和23项重要升级,升级主要瞄准工业级应用和前沿技术创新两大方向,从开发、训练到部署为开发者带来全流程体验的提升。
百度深度学习技术平台部高级总监马艳军披露,飞桨官方模型库新增39个算法,算法总数达到146个,预训练模型200多个,助力开发者进行低代码二次开发。
1、开发环节
本次全新发布的有3个端到端开发套件:PaddleClas图像分类、Parakeet语音合成和PLSC海量类别图像分类。全面升级PaddleDetection目标检测开发套件的模型数量、性能和产业应用能力。
PaddleClas是一个工业级分类模型,包括23种分类的经典网络及117个预训练模型,后面还会发布一个十万分类的图像分类的预训练模型,使得图像分类的模型算法会非常的全面。另一方面,百度通过知识蒸馏等技术,实现了图像分类算法的深度优化。
这次PaddleDetection的升级有几个方面,一方面是算法的丰富度进一步提升,新增了58个预训练模型,总数达到101个。另外就是模型精度在COCO数据集上能够达到53%以上的MAP,已经非常高了。同时模型的速度非常的快,这里面包括比如说YOLOv3,我们其实现在是其它的开源产品的2.6倍。
以飞桨助力普宙飞行器公司实现森林巡检为例,普宙的无人机森林巡检方案在使用Paddle Detection以后,召回率召回率提升3.51%,准确率提升7.92%。目前该系统已经应用到东南亚155个森林分局,相比人工巡检效率提高200%。
另外,百度今天还正式发布端到端的语音合成开发套件Parakeet。Parakeet采用模块化设计,其中百度自研的一个语音合成模型“WaveFlow”能以40倍实时的速度合成高保真的音频,并且只有5.9的million参数,比WaveGlow要小15倍。
2、训练环节
在飞桨训练环节的升级包含三个方面,训练速度,显存,和大规模分布式的扩展能力。
首先是新增自动混合精度,用一行代码就可以实现训练速度提升两倍。在显存策略方面,飞桨实现了重计算机制可用于训练极深网络模型,使得显存的消耗迅速降低,扩大batchsize 5倍以上,可以训练120层的ERNIE Large的模型。
另外一个非常重要的升级是飞桨分布式扩展能力。新增模型并行、弹性训练等大规模分布式训练能力,满足苛刻的工业级应用需求。
在模型并行方面,新发布的海量类别图像分类方案PLSC,能够实现千万类别规模的分类。在弹性训练方面,开发者可以通过开源的EDL来使用,应用场景可以包括像知识蒸馏、强化学习、超参搜索等等这样的一些预估型的训练方式。
除此之外,百度还全新发布PaddleCloud云上任务提交工具,提供轻量化命令行形式实现实用任务管理。
3、部署环节
马艳军说,在推理部署环节,我们升级了服务器端的推理引擎,并可以通过PaddleServing来实现模型的服务化部署,然后同时我们在移动端和边缘端的推理部署上也进行了升级,今天我们还将发布在前端小程序可以应用的一个网页端的一个预测的推理引擎Paddle.js。
升级涉及模型优化工具PaddleSlim、原生推理引擎Paddle Inference、在线部署框架Paddle Serving、轻量化预测引擎Paddle Lite等端到端部署核心能力。
马艳军还列举案例进行了解释,以协助北京地铁进行的密集人流的口罩佩戴检测应用为例,面对软件系统复杂和硬件算力有限的情况,基于原生推理引擎Paddle Inference,只需要用三天的时间就能实现应用线上部署,检测准确率达到97%以上,有力地协助了北京地铁进行疫情的防控。
会上,百度还全新发布国内首个开源JavaScript深度学习前端推理引擎Paddle.js,用于小程序、网页端部署。
▲利用Paddle.js在前端实现图像分割等应用
4、Paddle X全流程开发工具
百度还本次峰会全新发布了PaddleX全流程开发工具。这是一套将飞桨开发、训练、部署等一系列功能模块进行打通的工具,可以使用门槛得到大幅的降低,并且全部开源,便于快速集成。
目前,PaddleX已经支持各类AI应用的快速开发,比如指挥家VR就基于PaddleX实现了他们VR的应用,开发效率提升30%。
5、飞桨Master模式
飞桨Master模式在2019年的WAVE SUMMIT峰会上已经正式发布,具有最核心的两个技术优势,一方面是预训练模型,另外就是迁移学习的工具,这两个方面本次都有升级。
在预训练模型方面,重点聚焦视觉预训练模型和NLP语义理解模型ERNIE;在迁移学习工具方面,飞桨新增了多个前沿的迁移学习算法,提升应用效果。开发者可以使用飞桨开源的PaddleHub,或者EasyDL平台来体验Master模式的优势效果。
百度深度学习技术平台部高级总监马艳军分享,除了飞桨全流程开发能力的持续升级外,百度在前沿技术创新上也取得大量进展,包括升级强化学习工具PARL、联邦学习PaddleFL、图神经网络PGL新增多个模块。
会上,百度飞桨总架构师于佃海于佃海说,飞桨核心框架具备四大特色,包括:易学易用的前端编程界面、统一高效的内部核心架构、原生完备的分布式训练支持、高性能可拓展的推理引擎。
这些技术特色直指高效和易用的核心设计理念、于佃海认为,推动飞桨迭代发展有两个驱动轮,那就是产业实践的需求和用户体验的提升。
三、国内首个支持量子机器学习的深度学习平台
值得一提的是,百度本次还推出了量子机器学习开发工具量桨(Paddle Quantum),这使得百度飞桨成为了国内首个、也是目前唯一支持量子机器学习的深度学习平台。
量子计算是由量子力学与计算理论交叉而成的全新计算模型,具有强大的信息处理优势和广阔的应用前景,被视作未来计算技术的心脏。
百度研究院量子计算研究所所长段润尧说,结合百度自身的业务特点以及技术优势,我们制定了聚焦于量子算法、量子人工智能以及量子架构这三大核心方向研发的战略规划,简称为QAAA规划。
段润尧举例说,当涉及图的最大割等问题,传统方法不得不耗费指数规模的海量资源。量子计算提供了解决这类问题的新思路,量桨提供了“量子近似优化算法”,可以把这一问题转化成量子神经网络训练并获得最优模型,可以将量子计算网络的层数减少50%。
量桨建立起了人工智能与量子计算的桥梁,可以快速实现量子神经网络的搭建与训练,还提供易用的量子机器学习开发套件与量子优化、量子化学等前沿量子应用工具集。
四、企业版零门槛AI开发平台EasyDL全新升级
本次,EasyDL带来了业内首个专注于AI开发领域的智能数据服务平台EasyData,面向AI开发领域,提供一站式数据采集、清洗、标注、扩充、数据闭环等能力。
EasyData自动数据采集方案将采集效率从周提升到小时;自动数据清洗方案将人工处理成本降低80%;智能标注支持物体检测、图像分割、文本分类三种任务场景,节约70%的人工标注成本;整个流程使得模型迭代周期从月到周甚至到天。
EasyDL还带来了4项重要升级:
1、预训练模型、预置算法升级:EasyDL平台使Master模式应用更简单高效,全新上线超大规模视觉预训练模型并升级持续学习语义理解框架ERNIE2.0,预置26套经典CV网络与模型组合,36套经典NLP网络与模型组合,支持开发者更加高效快捷的模型开发。
2、自动数据增强与超参搜索:开放超过40种数据增强算子,灵活配置;创新基于随机微分方程的无梯度优化的调参算法,收敛速度快,支持大规模并行搜索调参。EasyDL线上多场景模型精度平均提升10%以上。
3、分布式训练加速:基于PaddlePaddle DGC优化机制,在公有云环境下,训练性能获得大幅提升,EasyDL线上多场景模型训练时长平均减少70%。
4、EasyEdge软硬一体方案升级:共6款方案,专项适配与加速,高中低全矩阵覆盖,模型识别速度最高提升10倍。
百度AI开发平台部总监忻舟分享,在中科立业智能云秤的落地案例中,基于EasyData的自动模糊去除、过滤无效数据、智能标注和数据增强等能力,智能云秤实现了每天收集7000张图片数据,减少80%的数据处理量和70%的人工成本,实现针对50种水果、准确率达到95%+以上。
除此之外,峰会上飞桨还联合全球领先硬件厂商英特尔、英伟达、arm中国、华为、MediaTek、寒武纪、浪潮、中科曙光等启动共建硬件生态合作圈。
结语:开发者之幸是AI行业之幸
深度学习框架对人工智能产业举足轻重,这一领域很长领域被谷歌TensorFlow、Facebook Caffe等国际巨头占领,百度飞桨作为国产框架的先行者冲出重围,已经为许多开发者所用,不断地更新也使其更具竞争力。
可以看到,百度飞桨开源深度学习平台和飞桨企业版在开发、训练、部署等环节都带来了大量更新迭代,而更新的动力还是来自于产业实践的需求和用户体验的提升。
一边,开发者在高效顺畅的开发部署流程中获得AI开发的热情动力,一边以百度飞桨为代表的深度学习框架平台也不断更新迭代,形成AI开发生态良性循环。