讯飞输入法十二年里程碑:万物智能时代的交互新解

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

“唧唧复唧唧,木兰当户织。不闻机杼声,唯闻女叹息……”这首熟悉的《木兰辞》在学生时代是背诵的经典,读起来朗朗上口。如果在20秒内读完前三段,可能你并不能听清每个字的清晰读音。

但讯飞输入法能做到!吉尼斯世界纪录普通话最快语速保持者、相声表演艺术家方清平先生用17.81秒读完了前三段,在现场讯飞输入法全部准确识别并自动添加了标点。

讯飞输入法十二年里程碑:万物智能时代的交互新解

▲2020年方清平先生现场参与极速语音识别挑战

这发生在2020年讯飞输入法推出十周年之际,时隔两年,今年讯飞输入法更新12.0版本,除了识别率的持续提升,讯飞依然在寻求更广泛的突破。

输入法诞生于互联网应用爆炸的时代,伴随着PC、手机、手表、智能家居的发展,成为我们互联网生活中不可缺失的一部分。但与此同时,输入法也在不断解构用户场景,致力于满足用户不断发展的需求,即便这一产品形态已经深入我们的互联生活,但让产品变得更好用是头部玩家的永恒命题。

如今,讯飞输入法已经12年了,我们试图从其新升级点中抽象出如今输入这件事到底发生了什么样的变革,人机交互是否有更广阔的想象空间?

在最新12.0版本中,讯飞输入法实现了20多种方言免切换、扩充支持30种外语识别以及在噪声、远场复杂环境的语音识别功能,还有AI智能化表达助手的多场景覆盖,以及用户输入内容服务的专属定制。我们可以看到,讯飞输入法正在不断延伸其广度和深度,让输入法在用户心中的重要性提升了一个高度。

那么,除了有“AI国家队”的核心技术底座支撑,在万物皆智能的时代,讯飞输入法还有哪些杀手锏?在人机交互这件事上深耕12年之久的讯飞,与发布之初有哪些变化?未来,讯飞输入法的发展又聚焦在哪里?

日前,智东西与讯飞输入法业务部总经理程坤针对上述问题进行了深入交流。我们发现,做一个好用、用户爱用的输入法,远不是满足输入这一件事就可以。

讯飞输入法十二年里程碑:万物智能时代的交互新解

▲讯飞输入法业务部总经理程坤

一、万物智能时代的多元、个性,讯飞输入法“提前预判”

2010年,苹果创始人史蒂夫·乔布斯带着iPhone 4出现。对于这一款手机,他的评价是:iPhone重新定义了手机,而iPhone 4重新定义了iPhone。智能手机的出现也意味着移动互联网时代的到来。

彼时,从PC跨越至移动设备,作为互联网“入口”的输入法行业泛起涟漪,讯飞输入法带着业内首创的中文语音输入,在本就不平静的输入法产业中激起浪花。截至今年10月底,讯飞输入法日活用户已突破1亿,语音渗透率达75%,日语音调用量较2021年提升45%。

讯飞输入法十二年里程碑:万物智能时代的交互新解

时至今日,不只是智能手机,智能平板、智能穿戴、智能家居等设备都与输入法有着强绑定关系,以AI为代表的新兴技术,正在加速万物智能时代的到来。在这一背景下,输入法所赋予的人机交互使命也在改变。

程坤谈道,在万物智能时代,有3个新的输入问题,也就是复杂多样的交互界面、输入场景和用户需求。

讯飞输入法十二年里程碑:万物智能时代的交互新解

针对于此,讯飞输入法已经着手布局面向万物智能的“新输入”解决方案。作为互联网时代的重要产物,输入法的诞生与发展都具有重要意义,而如何正确预判产业发展的动向,并诠释好“新输入”的意义尤为重要。

首先从交互界面来看,万物智能这一描述中,“万物”就决定了其核心特点,越来越形式多样、形态丰富的设备终端出现,如智能手表、手持大屏终端、智能电视,以及如讯飞智能办公本等新形态设备,都伴随着人们的输入需求而诞生。

因此,讯飞输入法提出要做“定制化输入解决方案”,程坤谈道,输入法的发展一定程度上会受限于其所在设备,所有设备本身就会限制人们的交互方式。为了让人们的输入体验更加顺滑,讯飞输入法为不同的设备打造了适配度较高的输入法产品。

如手表等小屏幕穿戴设备,讯飞输入法可以通过“随心写”来完成汉字、字母以及数字符号等内容的输入;对于折叠屏这样的手机形态,讯飞输入法设计了分裂键盘;面向智慧屏这样的家庭C位设备,讯飞输入法的跨屏输入为多端协同提供了便捷。

讯飞输入法十二年里程碑:万物智能时代的交互新解

其次,伴随着设备的多样性用户在不同输入场景下的需求也逐渐多样化并更加具有针对性,如日常聊天中,表情包斗图已经成为必备功能,以及刷各种社交平台时,快速在朋友圈、微博中发表自己的观点,与朋友进行交流、互动等都很常见,还有各种视频网站中的发弹幕等,不论从软件还是硬件来看,人们的输入需求都呈现出多元化特征。

因此,讯飞输入法在AI助手上定制了22种AI功能,覆盖了人们常用的6大表达场景,包含聊天、发布、搜索、评论、评价、个性表达等场景,不仅是输入效率的提升,还让输入法满足更深层次的用户需求。此外,通过场景化语音识别引擎和场景化拼音输入引擎,更有针对性的满足用户在特定使用场景的表达需求。

讯飞输入法十二年里程碑:万物智能时代的交互新解

最后,从不同的用户群体来看,其需求各有不同,大的分类有Z世代、银发族,以及更细分的游戏、职场、障碍人群使用等场景。程坤谈道,他们重点在体验上下功夫,进行个性化的交互设计,在输入法中定制了多样的使用模式,对于不同用户群来说,很多时候仅需一键切换或是自动匹配。

比如,对于中老年人,他们大多会有视力下降、手指不灵活的问题,因此,在长辈模式下,讯飞输入法基于其本身的语音功能,砍掉了需要用户二次交互的操作,并调大字号让界面更简洁。

其实,年轻人的需求更加丰富。程坤谈道,年轻人对好看的东西有天生的好感、对新功能抱有好奇心。因此,讯飞输入法推出了定制化的游戏键盘、在视觉层面的皮肤加入装扮元素、在内容层面配备帮助表达的语录等。这种痛点的需求一旦被满足,那反馈的结果很大程度上会是持续向好的。

科大讯飞董事长刘庆峰在今年1024全球开发者节开幕式上提到,“如今,Z世代(1995年至2009年出生的一代人)年轻人在关注什么,就代表未来是什么。”根据讯飞输入法的统计,目前Z世代、95后在其输入法人群中占比已经达到48%,这是一个相当惊人的数字。

人是需求产生的主体,场景是需求发生的载体,视觉和内容是需求满足的实体。随着内容生态的搭建,讯飞输入法正式提出输入个性化内容开放平台i-Blocks,将创作者、IP方、设计师、普通用户串联在一起,“为用户的输入法打上个性化标签”,也就是说用户可以像搭积木一样来“组合”出自己独一无二的输入法。

从讯飞的生态布局我们可以看出,输入法并不是一个新命题,但这一产业无时无刻不在随着新兴事物变动。现如今,输入已经不单单是识别准确与否的问题,与人的交互性也至关重要。作为曾经引爆语音输入,并且在这一领域深耕12年之久的讯飞输入法,正在依托自己在其中的技术积累大踏步向万物智能时代迈进。

二、万物智能时代,讯飞输入法12.0技能即将点满

随着AI、5G、物联网技术的推进,越来越多的设备被贴上了智能标签,万物智能时代到来。新的时代背景下,越来越多新设备、新交互方式、新需求诞生,在语音输入领域大展拳脚的讯飞输入法,将目光从提高语音识别准确率延伸至语音交互上。

作为AI国家队,科大讯飞不断精进语音识别。程坤透露,讯飞输入法的语音识别准确率已经达到98%,然而这还是不够的。尤其是越来越多的智能设备出现,让它更懂你,似乎还存在一定的语言识别障碍。

我国地域辽阔,语言种类丰富,据统计我国的方言数量有100多种,且各地之间的方言发音、意思都有比较大的差异,这在一定程度上对语音识别的准确性产生了影响。程坤补充道,有些用户会选择普通话和方言混合着说,但实际上更多人会选择只说普通话或者方言一种。其实我们发现,在家庭环境下更多人习惯于说自己的家乡话,在使用智能设备的时候我们冷不丁一句方言可能就让设备“听不懂”。

为了跨越这一门槛,讯飞输入法采用了统一建模方式,将语音训练中的局部特征和全局特征相整合,也就是让这些方言“求同存异”,程坤告诉智东西,如果单纯整合的话,普通话和方言的数据量会非常大。讯飞将训练参数规模调整后,可以加快训练过程,再加上语言专家的助力,能使其在模型层面大幅优化并加速上线。

讯飞输入法十二年里程碑:万物智能时代的交互新解

目前,讯飞输入法12.0搭载语种可控方言免切换系统,用户选择“方言免切换”功能后,就可以实现普通话与23种方言自由切换识别。当智能设备通过讯飞输入法的跨端输入,听懂各地方言,那意味着后一步的人机交互将更加自然、顺畅。

讯飞输入法十二年里程碑:万物智能时代的交互新解

除方言外,全球范围内不同语言间的交流互动也更为频繁,讯飞输入法扩充支持30多种语言的语音识别,程坤谈道,在外语语音识别领域,讯飞输入法的支持数量已经遥遥领先。

我们也了解到,外语识别的技术难点在于,其更强调语音和文字的对应关系,并且很难找到纯正发音的语音语料,因此对语音识别效果会产生较大影响。因此,讯飞输入法依托于此前在语音识别的技术积累,采用迁移学习技术,使得部分小语种语料规模不大的同时也能实现比较好的识别效果。得益于此,讯飞输入法的翻译效果也获得质的提升。

最后,从更为细分的使用场景来看,在较为狭小的汽车空间内或者高噪音干扰、远场混响的地方,精准识别司机和乘客等人群的语音,则会更加复杂。因此,讯飞输入法的通用模型已经具备在这类场景下达到较高语音识别准确性的能力。

不过,程坤也谈道,在高噪远场场景下,从智能硬件方面入手效果更好。例如讯飞的智能硬件设备,都已很好地解决了上述问题。

讯飞输入法对于核心技术的长期积累,使得对输入法的理解更加深刻。在输入法这样的产品中,语音交互的特质也逐渐凸显。程坤强调说:“我们看到语音交互的增长、看到越来越多用户的认可,我们相信万物智能时代,AI将助力讯飞输入法建构更大的用户价值。”

他补充道:“输入法的核心技术现在已不仅是拼音、语音,它标配的功能,还包括自动翻译、OCR文字识别等,这些功能虽然不是必需品,但一定是输入法的加分项。”

这些升级点正在一步步将讯飞输入法12.0新版本的技能点满。

三、12年磨一输入法,“新输入”已颇具雏形

讯飞输入法的现有成就离不开其拿着AI这一杀手锏,在输入法这条路上深耕了12年之久。

我们发现,讯飞输入法的发展历程一直伴随着四个字——“与时俱进”。程坤谈道,他们当时做第一版时主打的是效率,初衷就是提升用户输入效率,“提供极致服务”。但随着这些能解决大家普适化服务的需求逐步被满足,很多新的需求开始衍生出来。发展至今,就形成了前文的3个新输入问题。

在诞生12周年之际,讯飞输入法正式提出“新输入”的概念,并希望通过12.0版本给出万物智能时代新一代人机交互的最优解。他补充道,他们之前一直在为此打基础,今年进入了非常关键的节点。

讯飞输入法十二年里程碑:万物智能时代的交互新解

无论如何,讯飞输入法的发展、成就都源于其坚实的技术底座,并以不断变革的时代特点为锚点,在创新这条路上,为输入这件事赋予更多新思路。

不过,讯飞输入法发布12周年并不是终点,输入法的新故事仍在继续。

结语:面向万物智能的输入新变革

从拼音、手写到语音,从PC、手机、手表到智能家居,输入法已经成为我们与互联网密不可分的绑带,万物互联到万物智能时代,人机交互这件事也一直在变。

交互界面、输入场景和用户群体的变革,也重新定义了输入法的玩法。讯飞输入法依托其在AI领域坚实的技术底座,对行业发展的敏锐观察,确立了“新输入”的发展思路,让输入法在人机交互中的价值逐渐凸显。程坤坚信,以语音为主,键盘触摸为辅,肢体语言动作为补充的万物智能时代正在到来。

这就是讯飞输入法12.0,从APP到构建输入生态,面向万物智能时代构建人机交互新解法。在这个不确定性与机遇并存的时代,希望技术和产品的变革,让我们每个人的指尖都能再轻松一些。