2019年,对于所有人工智能公司而言,AI的规模化商业落地都是一道“魔考”。
近日,搜狗公司做了一件事,向录音笔硬件厂商开放搜狗听写服务,接入这一能力的录音笔,就可以像搜狗AI录音笔一样智能,实现语音转写、实时互译、智能编辑等功能。
这件事乍一看平淡无奇,AI赋能产业也是老生常谈的话题。但如果用时间线把搜狗布局AI的打法串起来,你会发现这一背后别有洞天。
从最早的技术开放平台搜狗“知音引擎”到硬件产品AI翻译机、录音笔,再到如今开放产品背后的AI服务能力,搜狗AI落地又进入一个新的阶段,服务成了输出的重点。
搜狗AI交互技术中心总经理王砚峰的一句话更是直指AI商业落地的“痛点”,“只做技术是不够的,没有面向场景的深度优化,技术就是一种鸡肋”。
一、转变背后:硬件打磨技术体验,软件抢占市场
早在2016年,搜狗开始做语音开放平台“知音引擎”,并尝试将技术推向行业,但探索一段时间后,搜狗决定暂时不将这条路作为主攻方向。
原因是时机不到。在AI平台发展早期,软件免费的思路还停留在很多人心中,“你给我技术,我帮你做品牌背书”成为一种早期玩法,再加上通用技术平台的体验并不理想,技术提供商没有获得行业太多认可。
另一方面,面对百度、科大讯飞等玩家的语音平台,尽管搜狗也有不错的技术积累,但在生态资源的比拼上也并不占优势。
因此,从2017年下半年开始,搜狗不再大力去推技术开放平台,而是沉下心来将技术下沉,打磨场景与硬件,并在2018年上半年推出AI翻译机和AI录音笔产品。
以录音笔为例,传统的录音笔功能单一,主要就是录音。而搜狗AI录音笔则不同,录音后,它可以提供准确率高达95%以上的语音转写,还具备实时互译、云端分享、中英同传等多种AI 功能。凭借着语音转写和离线翻译等方面优秀的表现,搜狗录音笔上市后,短时间内就在多个电商平台取得了单品销量第一的成绩,在这一领域构建了核心的竞争优势。
与此同时,行业的观念也开始转变。行业一些玩家意识到,通用技术平台虽然免费,但并不会针对具体场景做优化,往往导致产品体验不足。在寻找更优的技术方案同时,行业为技术付费的意识开始增强。
这时不少公司主动找到搜狗,甚至包括一些硬件上的竞争对手,询问能否购买搜狗的AI翻译能力。王砚峰回忆道,“尽管提供技术平台和提供服务能力都是ToB,但两者的感受完全不同,最初行业都涌入技术开放平台,但在方案上没有谁真正不可替代,客户可以在多家之间来回切换;但当你在一个场景形成独特优势、构建核心壁垒后,行业会更尊重你,愿意购买你的服务能力。”
这成为搜狗再一次转身,改变AI的落地方向的导火索。
随着硬件之路的深入,搜狗意识到一个问题,在C端硬件市场,即使是最大的玩家,往往也很难占据50%以上的市场份额。这跟软件完全不同,软件可以发挥网络效应,一家独大,占据一个市场80%以上的份额。典型的代表就是手机市场的多品牌和安卓操作系统的一家独大。
此外,录音笔是一个相对狭小的市场,我国每年的销量均在400万台徘徊,并且这一市场有搜狗、科大讯飞等科技公司,还有索尼、爱国者等硬件企业,竞争同样激烈。
再加上搜狗是一家“技术范”十足的公司,线下渠道能力以及销售能力相比传统的硬件厂商并不占优势。
这意味着搜狗很难在硬件上一家独大。如何抢占更大的市场份额?如果硬件不能,软件上是否有机会?经过搜狗内部一番思考,王砚峰认为,软件这条路是有希望的,经过场景的深度优化后,即使面对BAT等互联网巨头,搜狗在AI翻译、语音转写上也具有明显优势。
因此,搜狗决定再往前迈一步,开放AI录音笔背后的听写服务,为录音笔行业提供OS系统,成为软件服务的核心提供者。
这是否又意味着硬件对搜狗的重要性会下降?王砚峰表示,硬件依然是主战场,和AI一样,都是搜狗的几大战略之一,因此硬件和开放服务对于搜狗同样重要。
在他看来,智能硬件和AI技术研究是密不可分的,硬件是AI技术的载体,AI是硬件产品的灵魂。只有面向用户体验,深入场景打磨技术,将技术、硬件、场景融合才能构建AI的竞争力。另一方面,开放听写服务,可以将搜狗打磨好的技术方案,以服务能力对外输出,推动搜狗AI的规模化落地。
用硬件打磨技术体验,用软件服务抢占市场、规模化落地,这一策略正在成为搜狗AI新的打法,也体现了其对AI落地更深层的思考。
二、“只做技术是不够的,关键是服务能力”
回到录音笔行业,我们今天见到的录音笔,无论是外观还是功能,跟2000年前后的产品并无太多变化。
也正是传统录音笔单一的功能、低频次的使用场景,智能手机正在成为它的替代品,目前手机录音APP已可以完成大部分场景的录音,有力地冲击这一市场的发展。
这也导致录音笔一直是个小众市场,近几年每年的销量都在430万台左右,销量一直停滞不前甚至一度下滑。而各家比拼的无非音质、电量、存储空间的提升,至于用户使用录音笔到底做什么,背后的服务体验如何,行业鲜有思考。
搜狗本次开放的听写服务,则依托自身扎实的AI技术和录音笔场景的深度实践。去年3月搜狗发布了一款AI录音笔,经过用户较长一段时间的使用,搜狗对海量的用户行为数据进行深入分析后,第一次为行业呈现了用户的真实画像。
搜狗发现,使用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达44%;第二大场景是企业内部培训,占比为24%;第三大场景才是采访,占比21%,这三大场景加在一起占了录音笔使用场景的90%。
而且在使用录音笔的用户中,每周使用频次超过三次以上的用户占比达60%,每周超过10次的占比达15%;在录音时长上,41%的用户录音超过10分钟。 可见,大比重的用户保持较高的使用频次和使用时长。
这三大核心场景也促使搜狗进一步思考,AI可以为用户带来什么价值。比如一场会议录音可能长达数小时,语音转成文字长达数万字,用户如何准确、轻松的整理内容,快速出稿,以及编辑完后,如何快速的分享给同事等等。
基于这些思考,搜狗更有针对性的将AI技术融入听写服务中,为行业输出优质的产品体验。
具体而言,首先搜狗开放了高准确度的语音转写能力,并支持10余种语音识别及方言识别。它采用业界领先的深层Transformer-based 端到端声学模型、神经网络语言模型、智能标点预测技术等,语音转写准确率可达95% 以上。
第二,麦克风阵列和语音增强技术。搜狗基于“云端+本地”结合,打造了双麦语音方案,并针对远场噪音环境,做了专门的降噪算法。
第三,个性化语音识别技术。语音转写时,关键词识别错误给用户体验带来的体验是糟糕的。搜狗通过打通输入法账号体系,基于产品中用户数据的使用习惯,自动挖掘用户的个性化词组,使用户常用语的转写错误率下降40%以上。
第四,智能编辑与多端同步编辑。语音转写不是目的,用户的最终目的是编辑成文。通过云端智能纠错编辑技术,搜狗听写可以针对置信度低的转写结果提供多个候选词,针对口头语、重复词进行自动文本顺滑。此外它还支持三到四人的人声识别,语音转写时在内容上自动区分说话人。
第五,云存储服务。用户的录音和文字都可以长期安全地保存在云端。
搜狗王砚峰解释道,市面上做AI技术输出的公司,更多是把技术以API接口的形式输出,但“只做技术是不够的,没有面向场景的深度优化,技术就是一种鸡肋”。
区别与此,搜狗重点做了两件事,一是把中台服务做得更完善,包含账户管理、转写技术、云同步功能、智能编辑等;二是提供了服务接入层,合作伙伴可以通过蓝牙开放协议零成本接入,让用户通过PC 和移动端享用搜狗听写的增值服务。
回到录音笔行业,单纯比拼硬件的商业模式已经持续了近20年。而在搜狗听写服务背后,市场的天花板似乎正在打开,以AI+软件服务+硬件的方式,正在重新定义录音笔和新的商业模式。
三、听写服务的基石:搜狗输入法
搜狗听写服务的背后,有一个容易被忽视的存在——搜狗输入法,它对于听写服务,乃至搜狗AI都意义重大。
目前搜狗输入法APP 已拥有超4.5 亿的日活用户,PC 端更是占据99% 的市场份额,语音请求峰值已超7 亿次,稳居全球最大的中文语音应用。
搜狗输入法背后的庞大用户和海量数据,首先为听写服务提供了绝佳的“练兵场”,听写服务中核心的语音转写技术早就在输入法中上线,不同的是,输入法中语音转写的场景以单句话为主,而录音笔中语音转写是更长的篇幅。经过海量数据和真实场景的优化,搜狗的语音转写才能达到95%以上的效果。
其次,搜狗输入法提供“入口”优势,移动端和PC端的输入法都支持搜狗听写服务。在PC输入法上,听写服务作为一项应用直接内置到PC输入法的工具箱中,当录音笔插到电脑上后,输入法就能自动探测到它,帮助用户进行音频管理,并提供听写服务。针对存量录音笔,这一方式可谓直接增加了其附加值。
凭借着99%的市场覆盖率,PC输入法有一个独特的优势,凡是工具性、效率性的工具都可以内置其中,不需要二次安装,用户随时调用,这大大提升了用户使用的便捷性。
在移动端,搜狗在输入法APP中也开放了听写服务的接口,一方面4.5亿日活用户带来一个庞大的市场,能够让用户更便捷的使用听写服务,庞大使用量也可以更快速的迭代听写服务背后的AI技术和产品体验。
另一方面,将听写服务直接内置到输入法上,避免了账号打通的问题,可以更便捷的使用账号的历史数据提供个性化的听写服务。
不只是听写服务,在搜狗AI的版图中,输入法就是AI技术的练兵场,它为技术研究设置问题,为技术的演进提供源源不断的数据洪流,又提供最佳的落地载体,扮演着“源头活水”的角色。
王砚峰也表示,开放听写服务只是搜狗的第一步,未来搜狗将会进一步发挥输入法的入口优势,将自身的语音翻译能力都以服务的形式开放出来,为用户带来更大价值的同时,抢占更广阔的软件服务市场。
从输出技术到打造硬件,再到提供服务,是搜狗AI发展的一个转折点,也是搜狗AI落地的深化。