智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 漠影
经历过一年的新冠疫情影响,线上办公和在线学习成为不少人的生活新常态,这大大刺激了K12在线教培行业,线上教育火了,不少科技公司则瞄准儿童及学生的学习刚需,推出各式各样的软硬件学习工具。
拥有17年AI教育布局经验的科大讯飞,就是这股浪潮中的重要参与者之一。
目前,讯飞已推出了讯飞智能学习机、讯飞口袋打印机等人工智能学习辅助产品,因材施教地帮助孩子高效掌握知识,节省家长和老师大量辅导时间。
基于系统化的AI教育布局,在2020年财年中,讯飞的教育教学业务实现1.67亿人民币营收,同比增长16.77%。但学无止境,讯飞在AI教育中的布局也不止于此。
去年10月,讯飞针对学生在英语生词学习中的听、说、读、记全学习场景,推出了讯飞扫描词典笔,只需笔头在纸面上轻轻一扫,0.5秒就能查阅英文生词,扫描识别准确率达99%,还能进行模拟真人对话练习。
据悉,这款讯飞扫描词典笔一经首销就售罄,足以见消费者对它的喜爱,而这个成绩的背后与讯飞在AI语音及图像技术领域的长期积累息息相关。
为此,智东西与科大讯飞消费者AI学习业务部总经理翟吉博进行了深入交流,在更好地了解讯飞扫描词典笔背后的核心技术亮点的同时,也进一步揭开讯飞在AI教育赛道布局的思考与逻辑。
▲科大讯飞消费者AI学习业务部总经理翟吉博
一、AI语音技术城池的构建,中英文识别正确率达99%
讯飞扫描词典笔的背后,涵盖了讯飞从语音到视觉,从NLP(自然语言处理)到医学影像、手势识别等领域的丰富AI技术。
“从用户使用过程到后台处理的逻辑来看,讯飞扫描词典笔的工作本质上是一个信息输入输出处理的过程。”翟吉博谈到,词典扫描笔的技术链条是呈衰减关系,需要一个端到端的完整良好体验,每一步环节都处理好才能达到符合用户预期的效果。
我们也亲自体验了一下讯飞扫描词典笔,看看它的英文识别翻译是不是真的那么牛。一上手,讯飞词典笔的体积虽然比一般手写笔大了些,但握起来手感也不错。
当我握住笔头轻轻在纸面上一摁,笔头的识别灯就会亮起,接着我就像平常做高亮记号一样匀速滑过想要识别的英文段落,在我持续滑过文字的同时,扫描笔屏幕上也会陆续跳跃出我识别的英文内容。
接着在我扫描结束1秒不到,屏幕就已经完整显示我扫描的英文段落及中文翻译,同时还会有机器语音朗读一遍,可自由选择英美发音,从扫描到翻译完毕的整个过程仅需短短几秒。
之后我在和翟吉博沟通过程中才发现,这短短几秒的识别过程背后,其实是许多AI技术环环相扣,才将纸面上的文字呈现在小小的扫描笔屏幕上。通俗来讲,这一过程大致要经历4个步骤:
1、当我扫描英文时,讯飞扫描词典笔会利用图像高速扫描技术,将纸面上的打印或手写文字快速拍成图片。但这和手机的一次性成像不同,前者是基于用户“扫描”的动作过程,通过前端的图像拼接算法将一帧帧的图片拼接起来。
2、图像拼接完毕后,就进入转文字识别过程,需利用到OCR(Optical Character Recognition,光学字符识别)技术,将图像中的信息全部识别转换成文字。
翟吉博称,在这个过程中,讯飞OCR技术的中英文识别率准确率均能达到99%以上,对中文生僻字或形近字的识别准确率约95%以上。
3、转换成文本后,设备就通过机器翻译技术将英文单词或句子翻译为中文,其中对整个文本的翻译也涉及到了机器阅读理解技术,中英翻译效果能堪比专业八级水平。
4、完成文本翻译并不意味着结束,讯飞扫描词典笔还需进行一些拓展功能。例如,它需要进一步学习单词,除了中文意思外还需掌握单词的发音,并基于这个单词拓展更多的相关知识点推荐给用户,或者帮助用户纠正单词读音。
这个过程既应用到了常识推理和知识发现技术,也运用到了机器口语评测、声音定位与检测等技术。而一个单词从扫描到结果的呈现,整个响应过程只需0.5秒,速度是翻阅纸质词典的20倍以上。如果像我一样扫描英文段落,完成扫描后的响应过程则稳定在1秒之内。
与此同时,讯飞扫描词典笔还能实现离线查词翻译,用户无需联网也能使用扫描查词、语音翻译、跟读评测、例句朗读等功能。
实际上,讯飞扫描词典笔与讯飞其他硬件产品的底层技术是具有通用性的,不少核心技术的研发都复用了讯飞的核心研发平台,即便如此,讯飞仅专注于讯飞扫描词典笔软硬件研发的团队,也已达百人规模。
但由于讯飞扫描词典笔交互形态的不同,讯飞研发团队也还需根据设备及使用场景的特点进行技术定制,包括前端图片处理的扫描和拼接、拼接图片的OCR识别技术。
其中,用户在不同的光照环境、扫描握持姿势、扫描速度/轨迹等条件下,扫描出来的图片也容易产生畸变,这些都会给OCR技术带来新的挑战。
另一方面,讯飞扫描词典笔的纯离线处理功能也对设备芯片提出更高要求,需要在性能不及手机芯片的条件下,在本地进行快速识别翻译并保证良好效果。因此,研发团队也对芯片的部分算子层面和指令层面做了深度优化。
不难看出,从底层硬件到算法各个环节,讯飞扫描词典笔已逐步构建起了一座属于自己的AI技术城池。
二、17年AI教育市场积累,词典笔的诞生和软硬件生态
“其实在教育方向,讯飞有着原来B端市场十余年的积累。”翟吉博谈到,从最初开发讯飞输入法等互联网产品,到2017年起瞄准智能硬件方向并推出翻译机、录音笔等C端产品,讯飞已积累了不少从硬件研发到供应链布局的经验,以及在B端教育积累的营销和渠道资源。
在翟吉博看来,如果说翻译机、录音笔这些垂直类产品是蓝海市场,那么当下讯飞正在往竞争更激烈的黄海市场迁移,争取更大的市场空间,而迁移的路径讯飞选择了AI技术与教育的结合。
之前讯飞在做主打跨语言沟通的翻译机产品时发现,翻译机的应用还存在一定的场景限制,例如在个人语言学习的场景中,不少用户仍依赖传统纸质词典或手机端翻译APP来进行单词学习和查询翻译,而这个过程需要进行跨设备解决,在一定程度上也影响了自身的学习效率。
尤其在K12行业,大多数孩子还无法随时使用手机APP来查词翻译,更需要一个专用的智能硬件来解决。
因此在2020年疫情影响下,随着在线学习导致电子设备在家庭自主学习场景中的普及,以及家长对电子设备接受度提高,消费观念和使用观念得到转变,讯飞抓住机会推出了讯飞扫描词典笔,为孩子提供更高效、更低成本的查词翻译工具,从而大大提升学习效率。
与此同时,针对孩子学习的复习巩固和课外拓展等需求,讯飞扫描词典笔在硬件连接和内容生态方面也下了不少功夫。
目前,讯飞扫描词典笔支持生词本云端同步,并已和讯飞旗下的学习机、打印机等设备打通,方便孩子将积累的生词本同步到手机端,或与便携打印机等设备连接,随时随地复习和打印。
内容方面,讯飞扫描词典笔覆盖了朗文词典等权威汉英/英汉词典,还加入了不少课外拓展的听力内容,即便是K12课程也能同步跟上学习进度。
三、积极开拓蓝海市场,讯飞扫描词典笔的创新逻辑
在翟吉博看来,目前扫描词典笔市场本质上是对原来电子词典品类的一次升级和替换。
“我们小时候使用文曲星、快易典等电子词典上的基础功能,现在的词典笔都能实现。原来电子词典在便携性、AI能力、课本输入效率和成本等方面的不足,在词典笔上也得到了很好的解决和升级。”翟吉博谈到。
从数据层面上看,原来电子词典市场能实现千万级的年出货量,但随着智能手机的普及,电子词典的市场规模逐年衰减,如今年出货量估计为百万级。
但翟吉博认为,词典笔的诞生一方面能将如今电子词典的小几百万级市场进行替换,另一方面也将吸引更多新用户接受智能词典笔这一新品类。“现在市场还处于初期阶段,但如果再发展两、三年,估计也能达到大几百万、千万的级别。”他说。
尽管词典笔市场比翻译机、录音笔等市场空间更大,但布局的玩家也相对更多。“这个市场的特点是消费者还处在接受、认知和教育的过程,市场也还未出现明显巨头,各个玩家也在并跑阶段。”翟吉博认为,如何快速普及更多用户并形成口碑,这一循环也是扫描词典笔早期开拓市场的一个路径。
那么,相比文曲星、汉王、有道等也在积极布局词典笔市场的公司,讯飞的差异化优势在哪?
翟吉博谈到,从公司层面看,讯飞多年积累的软硬一体核心技术,能对智能录音笔、翻译机等效率工具的体验带来很大提升,有能力在市场中打造标杆性产品。
从产品层面看,讯飞已拥有了自己的一套学习产品矩阵,能够围绕不同学习属性进行产品组合,同时产品营销上也有不少渠道与合作资源,相比文曲星、汉王更有优势,与有道也能形成相互启发的竞争关系。
除此之外,翟吉博认为词典笔的识别准确率和响应速度是当下市场竞争的两大技术焦点。
“这两个技术就像跷跷板,想要效率又高又快是比较难的。”他谈到,识别准确率高需要更大的存储和处理器,但成本就上去了,甚至响应速度也会下降。
因此,如何平衡词典笔的识别准确率和响应速度,实现降本增效的同时达到最佳综合体验,也是包括讯飞在内的每一个玩家都在思考的问题。
在翟吉博看来,未来讯飞扫描词典笔的技术也会沿着这个思路迭代,一是单点技术的针对性优化,包括语音识别、OCR识别、语音合成、机器翻译等技术;二是各环节技术之间的联动优化,形成端到端的体验提升。
“从核心能力上看,未来我们也会重点精进知识推荐功能,探索知识图谱技术能否连接词典笔输入输出的交互,以及后续深度有价值的内容信息推荐。”翟吉博说。同时,面向国际市场的多语言识别功能和特定行业人群的专业领域查询需求,也将是讯飞持续探索的方向。
作为一家在AI语音领域深耕20多年的科技公司,讯飞已构建了覆盖教、学、考、评、管五大主场景的智慧教育全栈产品体系,智慧教育产品也已广泛落地国内31个省级行政区,与全国超3.8万所学校达成深度合作,帮助学生更好地提升学习效率,实现因材施教。
“教育本身是挺复杂的,尽管以学生为主体,但教育的完整体系包含了多种环境和角色,如何打通不同环境之间的学习场景,为孩子提供智能个性化的学习方式和建议,形成完整的学习闭环,也是我们一直以来的畅想。”翟吉博说。
他认为,AI教育的核心涉及了大量的教育资源和内容,行业必须形成一个完整的产业链,在B端市场中才能更好地针对不同学校教学特点、管理模式做适配,C端市场中也才能根据不同家长诉求和孩子体验特点做提升。
结语:K12浪潮爆发下,AI+教育融合打开创新思路
谁能想到一支小小的词典笔背后,也蕴含了大量的AI技术,从AI语音到AI图像,从识别、翻译再到机器阅读理解和知识推荐,每一个技术细节都能看到讯飞对科技赋能教育的专注和用心。
但也正是这支词典笔,引得大量玩家积极涌入,在让传统电子词典市场以新品类、新形态焕发生机的同时,也给AI教育市场的每一位玩家带来更多挑战。尤其是随着产品功能的同质化发展,如何让用户更低成本地获得更高效、更完整的产品体验,也是每个企业不断提升的方向。
未来,在这场越来越激烈的AI教育竞赛中,AI赋能的下一个传统品类市场会是什么?谁最终能成功脱颖而出,成为真正引领行业的风向标?我们拭目以待。