全面开放语音/AR/深度学习平台,百度为造生态操碎了心

智东西(公众号:zhidxcom)
文 | Lina

智东西7月5日消息,今天,百度AI开发者大会在北京举行,有超过4000人参加了本次开发者大会,这是百度有史以来规格最高的一次人工智能大会。在上午的开场演讲中,百度创始人李彦宏、总裁兼COO陆奇、度秘事业部总经理景鲲陆续上台介绍,智东西也对演讲进行了详细报道。(百度AI大会全程无尿点干货:人工智能和阿波罗计划全公开【附90+页PPT下载】

下午,智东西来到了六大分论坛之一:AI技术与平台分论坛,看看百度在AI方面的新进展。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

(百度副总裁、百度AI技术与平台体系(AIG)总负责人王海峰)

百度副总裁、百度AI技术与平台体系(AIG)总负责人王海峰首先上台开场。他提到,目前,几乎所有主要人工智能技术都已在百度搜索引擎中得到应用,十七年间积累下来的来自搜索引擎的用户需求、数据和平台,支撑了百度AI的发展。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

正如李彦宏在上午的演讲中一再强调的“开放”概念,王海峰表示,本次百度AI开发者大会后,百度的完整AI技术平台(截至目前共60项技术能力)将全面向开发者开放。包括本次分论坛将提到的语言的理解与交互开放、图片/视频的分类与理解技术开放、AR技术平台开放、以及PaddlePaddle深度学习开源平台。

整场下来,“开放”跟这个词都快听得不认识了……

DuerOS被百度提到了如此重要的战略高度,那么基于语音的AI交互技术自然也就成了重头戏。语音交互技术又包括了语音技术、语意理解等方面:

一、语音:全面开放语音生态2.0

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

语音技术部总监高亮首先上台介绍了百度如今全新升级了整套语音技术,成为语音开放生态2.0,针对远场识别、离线唤醒、多硬件适配等多方面进行了优化。如今,这套经过升级优化的语音技术将全部开放给开发者。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

1)开放远场语音识别及唤醒:

识别:近场数据适配(将近场数据通过数据增强技术模拟成远场声音)、麦克风阵列适配、中国家庭适配(户型、噪音等问题)。

唤醒:海量唤醒词数据、唤醒/误唤醒打磨(在语音识别模型、解码器等地方进行优化,取得平衡)、厂商定制、用户可配置。

2)开放定制化语音合成技术:

定制化TTS、SSML标签语言、基础标签、百度扩展。

3)开放语音合成音色:

追求极致的自然音色(说评书的声音、小孩讲故事的声音)、个性化和明星音合成(个性化很难,但是对于用户体验的帮助非常大)

4)开放Emotional CUI(情感CUI):

增强对话感-融入更多情感的对话体验,为对话带来更多的交互信息。包括音量(说话人的情绪、态度等)、音域(说话人的性格)、语速(说话人的心情)、音色(说话人的性别、年龄)等,针对说话者的属性提供个性化声音、生动对话(语速快时简短快速回答)、情绪响应。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

二、语义理解:UNIT语音理解交互平台

百度在开放语音技术,让机器听清用户的同时,更重要的是开放能让机器懂得用户需求的自然语言处理技术。接下来,百度自然语言处理部总监赵世奇介绍了百度马上要对开发者开放的的语言理解与交互技术平台——UNIT(Understanding and Interaction Technology Platform)。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

UNIT平台将向开发者开放语言理解技术(意图+词槽,提供深度学习、迁移学习等技术)、多轮交互技术(对话管理、跟踪、设计动作触发机制、自动澄清、主动引导)、基础技术&基础数据等。还打造了“训练师”模式,让开发者更简单地训练对话机器人,让机器能够听懂用户需求,并进行多轮对话。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

上午陆奇提到,今年将举行第十三届“百度之星”开发者大赛。赵世奇在会上补充道,本次大赛的命题就是基于UNIT平台提供的语言理解与交互技术,“设计和开发一个以对话式人机交互为核心的智能产品”。

三、DuMix AR平台

除了语音技术外,另一项值得关注新产品是一款名为DuMix的AR技术平台(念起来挺像“度秘”的….),为开发者提供包括DuMix AR的SDK、内容制作工具、云端内容平台、和内容分发服务。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

根据百度增强现实实验室主任吴中勤介绍,百度DuMix AR平台具备以下优势:

1、数据(搜索系统导来强大的数据积累)
2、三维感知与跟踪(稳定的图像跟踪、单目视觉SLAM等)
3、智能交互(语言、手势、人脸)
4、自研超轻量AR渲染引擎(超轻量、跨平台、低门槛)

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

从Demo视频与现场展示中我们也可以看到,DuMix AR提供的是一些比较基础的AR技术,与Facebook或是苹果此前曾经推出的AR平台相类似,本质上是为降低了AR内容创作的门槛,希望吸引更多开发者使用它们的SDK与工具进行制作。

此外,百度研究院院长林元庆上台介绍了百度在图像分类、图像识别、人脸识别、视频分析与理解等AI技术与应用(其中还特意提到了百度参加最强大脑认脸、使用刷脸支付在自动柜员机买水等有趣的人脸识别应用);百度杰出科学家徐伟也介绍了百度的深度学习开源平台PaddlePaddle,这些都是智东西此前跟踪报道过的AI项目,此处就不作详解了。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心

正如前文所说,整场下来,“开放”跟这个词出现得太频繁,听到最后都快不认识了……无论是全面开放的语音生态2.0、UNIT语义交互平台、还是DuMix AR平台、又或是我们熟悉的PaddlePaddle,这些开放的平台本质上都是百度为了构建属于自己的AI生态而搭好的台子,现在就只差各位开发者们登台唱戏了。

全面开放语音/AR/深度学习平台,百度为造生态操碎了心