百度推出AI输入法8.0 一分钟能识别426字语音

智东西(公众号:zhidxcom)
文 | CJ

智东西1月17日消息,百度输入法推出8.0版本,该版本的更新内容包括一个核心技术突破“Deep Peak 2”模型和两个全新AI功能,包括“语音速记”和“AI表情”。

百度推出AI输入法8.0 一分钟能识别426字语音

发布会开始,百度副总裁王海峰演讲称,百度在做输入法的最初时期就运用了深度学习的算法,未来百度也将在AI技术上做出更大突破,让AI在更多的领域提升人机交互的体验。

一、语音识别技术突破

百度推出AI输入法8.0 一分钟能识别426字语音

据百度语音技术总监高亮说,新版本的百度输入法使用了最新技术突破“Deep Peak 2”模型,该技术全称为“基于LSTM(Long Short-Term Memory,长短期记忆网络)和CTC( Connectionist temporal classification,联结主义时间分类器)的上下文无关音素组合建模”。

百度推出AI输入法8.0 一分钟能识别426字语音

该技术与传统的语音技术“上下文相关建模”的不同点在于,在“上下文相关建模”中,同一个音素,由于左右两边相连的音素不同,就会被定义成不同的建模单元,而在Deep Peak 2模型中,同一个音素,无论其左右两边的音素是否相同,都会被定义为唯一的建模单元。

百度推出AI输入法8.0 一分钟能识别426字语音

得益于于该项技术突破,建模单元减少10倍,同时路径解码部分的消耗降低10倍,解码速度也提升10倍。

除此之外,因为该技术突破可以让口语和正式语言结合用于深度学习训练,使得新的语音识别模型可以识别多种语音内容,包括中英文混说、各种重口音混说的情况,现场全程使用的“实时语音识别上屏技术”也应用了最新的Deep Peak 2模型。

同时,主持人华少现场在一分钟内进行了“426字”的快速语音播报,百度输入法的语音识别几乎和华少同时完成,识别内容也与华少现场所说的相差无几。

二、两大全新AI功能

百度推出AI输入法8.0 一分钟能识别426字语音

百度输入法负责人蔡玉婷称,这次百度输入法8.0版本在此前已有的AI功能上增加了“语音速记”和“AR表情”两大全新AI功能。其中,“语音速记”功能中应用了“声纹识别”技术,该技术针对2-3人的小型会议场景,可根据声纹区分不同发言人的语音信息。

百度推出AI输入法8.0 一分钟能识别426字语音

由于超过六成的百度输入法用户都会使用表情输入,因此此次百度输入法也推出了新的“AR表情”功能,该功能运用了人脸识别技术和AR技术,用户可以通过相机或相册进行人脸识别、制作表情包,还可以用自己的表情控制虚拟人物的形象。用户制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。

百度输入法的工作人员也现场演示了该功能的玩法。

这次百度输入法8.0的发布是对百度输入法的进一步优化,通过AI技术突破强化了语音识别功能,AR技术的加入也呈现了输入法的不同表达形式,增加了输入内容的个性和娱乐性。

百度推出AI输入法8.0 一分钟能识别426字语音