智东西(公众号:zhidxcom)
编 | 季瑜生

智东西3月20日消息,百度大脑的开放日活动在今日下午于中关村创业大街百度大脑创新体验中心召开。

这是百度大脑的首场开放日活动,也是百度大脑开放技术能力以及最新行业应用的一次集中展示。

活动当天,百度AI技术生态部总经理喻友平,重点介绍了百度大脑开源深度学习平台PaddlePaddle的技术和产品更新,以及百度大脑在市政、物流、教育等行业的落地案例,与开发者们进行深度交流。

同时,喻友平还介绍了百度大脑全新开放的24种AI能力。此前在网络上大火的智能猫窝设计者百度大脑工程师晚兮也在现场为大家讲述了智能猫窝设计者们的初心。

一、PaddlePaddle迎来重大更新

开放日一开始,喻友平就重点宣布百度PaddlePaddle的核心框架Paddle Fluid 在近日迎来v1.3版本发布,在基础框架、预测引擎、模型建设、分布式训练各个方向上完成多项升级。

首先,Paddle Fluid v1.3新增发布视频分类模型库,值得关注的是这是业界首个视频分类模型库。

据喻友平表示,这个新增视频模型库,可以提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。

其次,PaddlePaddle新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,并且提供完整部署示例。

另外,在最新更新中PaddlePaddle的分布式训练性能大幅提升。百度大脑发布了大规模稀疏参数服务器Benchmark,通过 CPU多机异步训练发布可以显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。

最后,喻友平还推出业界领先的深度强化学习框架PARL1.0。据他介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN、DDPG、PPO、A3C等主流强化学习算法。通过8块GPU可拉动近20000个CPU节点运算,将近5个小时迭代一轮的PPO算法加速到不到1分钟。

二、开放24种新AI能力,百度大脑技能全面解锁

据百度表示,当前百度PaddlePaddle已对外开放超过50种经过工业场景验证的官方模型,在深度学习基础之上,百度大脑通用AI能力开放涵盖语音、视觉、自然语言处理知识图谱等全面AI技术。

语音方面,根据喻友平介绍,目前百度大脑语音开放能力包括语音唤醒、语音识别语音合成等通用能力,还包括即将推出的语音识别自训练平台、软硬一体的语音开发套件以及各种场景方案。

此外,PaddlePaddle首次开放了搭载国际领先的注意力模型的语音能力——语音识别极速版。

在1月的百度输入法探索版发布会上,首次发布了领先国际的语音技术:在线语音领域全球首创的流式多级截断注意力模型SMLT「Streaming trancated multi-layer attention」。

这是首次在大规模语音识别工业界采用注意力(attention)模型,在百度输入法产品发布后,惊艳的语音输入体验得到了业界的一致好评。基于以上成果持续进行更多创新,提升识别率的同时又大幅优化解码速度。百度大脑语音方向首次将这一系列技术创新整合为语音能力对外开放:“语音识别极速版”,拥有更快的响应速度,相对识别准确度提升15%,为开发者带来更极致的识别体验。

此项语音能力在API调用方式下,实时率小于0.1,意味着5s的音频不到500ms即可完成识别过程,极大减少了识别音频所需的耗时,提升了语音交互的响应体验。在近距离安静环境下,识别准确率可达到98%,同时支持略带口音、童声、耳语的识别,使语音识别应用更加广泛。

同时,多平台的SDK也即将推出,使APP、服务器端更可实时识别,应用这一领先技术。目前,每个开发者账户将赠送5W次免费调用量,针对新能力的使用者,也即将推出一系列赠送及优惠活动。

另外,近场语音识别升级了预置语义解析。预置场景由35个升级为51个,包括天气、航班、电话、电影播放、页面屏幕控制、电视剧、美食、手机设置、通用录、提醒、短信、故事等,语义解析效果全面优化,80%优于原有解析结果。

不仅如此,还有一些新品即将上线。如:语音识别自训练平台,支持自动评估选出最好的基线模型,仅上传业务场景文本语料即可训练语言模型,零代码自助训练专属的语音识别模型,极大地方便语音开发者提升所在业务场景的识别准确率,满足业务上的语音识别需求。另外,远场语音开发套件也即将上架售卖,可快速进行远场识别开发评估,此套件应用于机器人、儿童故事机、家电、车载设备等硬件。同时还将开放离线合成,以及推出更多音库。

视觉方面,百度大脑重点更新了OCR、车辆分析、人脸人体以及图像识别四方面的能力升级。

首先,在极大便捷工作的OCR方面,卡证、票据、汽车三大场景方面均有重大更新

卡证OCR 新增了4个新能力:户口本OCR、出生医学证明OCR、港澳通行证OCR、台湾通行证OCR,总数达到9种;

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

票据OCR 新增了4个新能力:行程单OCR、保单识别OCR、通用机打发票OCR,定额发票OCR,总数达到9种;

汽车场景的OCR则更新了3个新能力:车辆VIN OCR、机动车销售发票OCR、车辆合格证OCR,总数达到6种。这些OCR新能力在关键字段的准确率均在90%以上,并有多项是业界首次平台化开放。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

同时,对已有的OCR能力,百度大脑也进行了功能升级:表格识别:支持合并单元格、无表格线等复杂样式;iOCR 自定义模版文字识别:支持列宽不固定、有合并单元格的表格样式的定制识别;驾驶证识别:支持驾驶证副页的识别。

至此,OCR产品全系列共34款,实现卡证、票据、文档、汽车全场景覆盖。

在车辆分析方面,百度大脑推出全新系列服务:包括车辆检测、车流统计、车辆属性分析和外观损伤识别。

其中,车辆检测,通过识别图像中的所有机动车辆(包含小汽车、卡车、巴士、摩托车、三轮车),返回每辆车的类型和坐标位置,并对每类车辆分别计数,可应用于违章停车监测和智能停车场。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

车流统计,则是根据视频抓拍图片序列,进行车辆检测和追踪,识别各类车辆(包括小汽车、卡车、巴士、摩托车、三轮车)在指定区域内的驶入/驶出情况,实现动态车流统计,可应用于实时监控交通道路、卡口的车流量,自动统计不同时段各类车辆的进出数量,分析路口、路段的交通状况,为交通调度、路况优化提供精准参考依据。而车辆属性分析和外观损伤识别两项服务,也即将开放。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

在人脸人体识别方面,百度大脑新发布了情绪识别,可以准确识别7类情绪:生气、害怕、厌恶、高兴、悲伤、惊讶、无情绪。

此项技术可应用于幼儿园安全监控等场景,通过监控孩子的心理状态,判断教师和幼儿是否有异常状况,从而保障幼儿安全、及时预警并参与辅导等。同时人脸融合以及手部关键点将在3月推出。

此外人脸人体方面,百度大脑还有2项功能全新升级,包括:人脸检测快速检测人脸并返回人脸框位置、定位五官与轮廓关键点数量,从72个增加至150个;新增2种手势,共24种常见手势,整体识别率在90%以上,使得手势识别更丰富、更准确;而即将上线的更高进精度的人像分割,可应用于人像美图、影视后期等场景。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

而在图像识别方面,百度大脑新增红酒识别和地标识别这2个新能力。通过红酒识别,用户只需要对着红酒标签拍照,系统就能自动识别红酒的品牌和名称,目前可识别数十万种国内外红酒,识别准确率98%以上,从法国波尔多到中国张裕,商品信息都能得到准确关联,可以轻松为用户提供参考和商品推荐。而地标识别则能够精准识别约5万中外著名地标、景点,准确率高达94%以上。用户只需要拍摄包含国内外著名景点、地标的照片,系统就能自动生成足迹、图文博客等有意思的交互内容,提升用户旅游体验。

同时,开放日现场,喻友平还宣布,百度大脑即将上线邀测钱币识别功能。该功能可以精准识别中外钱币,支持数百类币种、数千种面额,识别准确率98%以上,不仅能够提升金融机构货币兑换的效率,也能让“外币骗局”无处藏身。

从红酒到地标再到钱币,目前百度大脑的图像识别种类已经多达11种。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

同时,百度大脑语言及知识技术也进一步开放。这一方面,百度大脑此次开放日的更新亮点是:语言处理应用技术、知识理解以及智能写作平台三大方面。

在语言处理应用技术方面,百度大脑新增文本纠错、新闻摘要、智能写诗、智能春联和对话情绪识别等能力,在知识理解方面,百度大脑推出了作文检索和知识问答两个新能力。

同时,智能写作平台将在4月全面上线,平台同时提供自动写作和辅助写作的能力。一方面,平台支持天气预报、股市大盘、比赛报道、智能写诗写春联等自动写作的能力,能够直接进行自动写稿,从而解放创作者的双手。另一方面,平台提供热点发现、热点分析、自动摘要、自动纠错等辅助写作的能力,能够帮助创作者提供素材、激发灵感、质量检测,提升创作者的写作效率和产出质量,降低写作成本。

在AI技术加持下,百度大脑也在重点发力智能硬件和设备。

在百度大脑首场开放日,除了有以上多项核心的技术更新、能力升级、新品推出外,百度大脑在AI市场正式上架4款硬件产品。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

截至目前,百度大脑已经开放了近160项AI能力,平台上开发者数量超过100万,开放能力覆盖语音、视觉、自然语言处理、机器学习等全面AI技术。

三、智能猫窝开发者分享,让猫窝有AI也有爱

开放日当天,网红智能猫窝的设计者百度大脑工程师晚兮也在现场为大家讲述了智能猫窝设计者们的初心。

为了让流浪喵过上幸福的生活,程序员出身的他用百度大脑动物识别技术和百度EasyDL打造出 “猫脸门禁”、“病猫识别”、“绝育识别”三大智能功能,给流浪猫一个温暖的住所的同时帮助救助志愿者发现生病和未绝育的流浪猫。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

晚兮提到,凭借百度大脑的开放技术,他只用半天就设计出了智能猫窝的三项主要AI功能,让看似高冷的AI技术最终化为猫咪们的守护神。

百度大脑首期开放日秀肌肉:24种新AI能力,赋能市政、物流、教育N大行业

结语:多项AI技能齐上线,百度开源生态构建更上一步

事实上,AI技术已经渗透到各行各业的毛细血管之中,在赋能落地的过程中,AI的发展不仅要有代码与逻辑组成的技术构成,同时更是需要扎实可用的技术应用以及惠及更多行业的开放生态。

其中,仅仅是百度大脑就已经落地20+行业,对外开放超过50种经过工业场景验证的官方模型。无可置疑的是,AI生态赋能已成燎原之势。