智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影

智东西6月25日报道,6月24日上午,一场科技盛会在北京召开。

全国科技大会、国家科学技术奖励大会、两院院士大会首次共同举行,总书记为最高科学技术奖获得者等颁奖。

同时,国家自然科学奖、国家技术发明奖、国家科学技术进步奖等奖项重磅揭榜。

在获奖名单中,我们看到华为、科大讯飞、阿里云、小米等科技公司出现,而科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目,更是斩获国家科学技术进步奖一等奖

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞

这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖

据悉,这一集合了多语种语音识别、多语种语音合成、多语种翻译技术等为一体的综合技术,解决覆盖69个语种的跨文化交流难题。

当下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“语音+大模型”的全新震撼交互体验。

这一次的“国奖”,则让我们看到了中国AI的隐藏实力和“语音+大模型”的广阔前景。

一、史上最卷科技“国奖”,神仙打架

6月24日,2023年度国家科学技术奖揭榜,被央视网、人民网等主流媒体轮番报道,占据各大科技媒体的头版头条。

五大科技奖项揭榜结果大致如下:

国家最高科学技术奖2人:分别授予武汉大学李德仁院士、清华大学薛其坤院士;

国家自然科学奖49项:一等奖1项,二等奖48项;

国家技术发明奖62项:一等奖8项,二等奖54项;

国家科学技术进步奖139项:特等奖3项,一等奖16项,二等奖120项;

中华人民共和国国际科学技术合作奖:10人。

本届国奖被称为史上最难、最严格的一届评奖。

一是因为从2017年开始至今,国家科学技术奖励数度改革,强调科技奖励工作要坚持国家战略导向,并与国家重大战略需求和中长期科技发展规划紧密结合。改革之后,提名制和宁缺毋滥是两个重要原则:提名制,压实了提名者对材料把关的责任,加强了对候选者的审核和诚信审核;宁缺毋滥,让奖项评审更加严格,比如说2020年度国家科学技术进步奖计算机与自动控制组的一等奖就是空缺的。

二是,因2021年、2022年国家科技奖暂停,大量优秀成果累积,竞争极其激烈。2023年受理的通用项目总数为1261项,仅243项通过初评,最终仅28项最终获得特等奖、一等奖,约占2%。

国家科学技术进步奖更是竞争者众。由垂直专业新媒体“科奖圈”于今年2月的统计可知,2023年科技进步奖共28个分组、709个项目。聚焦信息领域,主要有计算机与自动控制组(45项)、电子与科学仪器组(28项)、网络与通信组(13项)三个组。

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞

由公开信息可知,在信息领域,华为陈海波牵头的“鸿蒙智能终端操作系统基座与产业应用”、百度王海峰牵头的“产业级深度学习开源开放平台”、曙光历军牵头的“国产先进计算系统关键技术及应用”也都在初期提名之列。

可谓“神仙打架”。

不过,从最终结果来看,只有科大讯飞牵头的“多语种智能语音关键技术及产业化”项目战到最后,并获得了国家科学技术进步奖一等奖。

这是深度学习引发新一代人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。科大讯飞也是19项国家科学技术进步奖特等奖、一等奖中唯一作为牵头单位获奖的民营企业。

二、多语种智能语音及产业化,为何拔得头筹

这是一个什么样的项目?

简单来说,“多语种智能语音关键技术及产业化”,是集合了多语种语音识别、多语种语音合成、多语种翻译技术等智能语音技术和产业化为一体的综合项目。

目前,该技术支持69个语种,除了6个联合国通用语种,包括汉语、英语、法语、西班牙语、俄语、阿拉伯语等,以及挪威语、丹麦语等63个小语种。同时,该项目还覆盖了24种主要中国方言。

在坚持国家战略导向的大背景下,国家科学技术进步奖的评选标准更系统:不仅要完成重大科学技术创新,还要实现科学技术成果转化,创造显著经济效益。

语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体,还是国际合作的基础。多语种智能语音技术对于支撑人机交互、人类语言互通等需求具有重大战略意义,具有十分广阔的产业前景。尤其是在当前全球人工智能发展迅猛的大背景下,多语种智能语音技术更是当前国际科技竞争核心焦点之一。

但是,这项技术面临着诸多技术难题,科大讯飞从四个创新点完成了技术的突破。

1、复杂语音信号解耦建模,破解“鸡尾酒会”难题

要说语音识别的最突出难题是什么?很多人知道“鸡尾酒会”效应——远场、噪声、多人讲话往往难以听清。

对此,科大讯飞提出多通道语音信号时空分离建模方法,使人声和噪声精确分离;团队还将多维度语音属性分层解耦,简单说就是把内容、韵律、音色以及语种等都抽出来,以便更准确地识别和传达,从而破解“鸡尾酒会”难题。

2、多语种共享建模,多语言识别测评超OpenAI

再来看看另一个“卡脖子”技术——小语种智能语音系统。在当前国际科技限制的情况下,小语种知识匮乏、训练数据稀缺,是困扰小语种训练的主要难题之一。

科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。

3、语音语义联合建模,读懂深层含义和专业知识

人们交流中常面临沟通障碍,深层语义理解对人来说都是困难的,更别说对机器了。

科大讯飞提出语音语义互增强的鲁棒口语理解技术,并提出多源知识增强的可信文本生成技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率,同时拉高专有词汇及领域知识引用的准确率。

4、国产异构硬件平台,建立国产化集群

面对算力“卡脖子”难题,科大讯飞也加速了国产异构硬件平台关键技术的突破。目前,科大讯飞已建成5个国产化集群,2023年与华为联合建设首个万卡全国产算力平台“飞星一号”,填补了国产超大模型训练平台空白。

除了技术上的突破之外,在重要评审维度“产业化”上,科大讯飞围绕多语种智能语音技术构建了自主可控的产业生态,开创引领了我国语音产业的产业链,助力中国制造出海;促进全球语言互通和“一带一路”建设;并且在进一步打造覆盖全球的国际产业生态。

具体到大家都看得到的场景上:

中国现在是汽车出口第一大国,出口国外的智能汽车需要有外语的交互,由科大讯飞多语种智能技术而开发出来的车载智能化产品,就支持奇瑞、一汽、长安等车企超200万套订单出海;

出国旅游,科大讯飞基于多语种技术开创了智能翻译机的新品类,带上一个翻译机就像带上一个会85种语言的AI翻译官;

在会议、办公等场景,讯飞听见系列产品能够实时记录和翻译会议录音,目前服务遍及全球50多个国家和地区,支持了超过40万场会议,科大讯飞还基于此研发出了普通用户也能用的讯飞办公本、讯飞录音笔等产品。

2017年开始,科大讯飞承建智能语音国家新一代人工智能开放创新平台,目前已聚集平台开发者数700.7万,意思就是由700多万人在调用多语种智能语音技术去开发自己的产品。
这就是技术带来的生生不息的产业生态。

据了解,近三年来,“多语种智能语音关键技术及产业化”项目累计实现直接经济效益 521.28 亿元,并带动由工信部和安徽省政府共建、以科大讯飞为核心的“中国声谷”产业集聚发展。

不得不说,这么多技术突破和产业发展,不是一朝一夕就能完成的,难怪有媒体说科大讯飞是“十年磨一剑”!

三、大模型时代,多语种智能语音技术能做什么?

众所周知,人工智能又来到了新的大模型时代,那么积累十年的多语种智能语音技术能做什么?

尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。众多业内专业人士认为,GPT-4o对万物互联时代语音浪潮的推动,类似于当年Siri对语音应用的推动。一夜之间,“语音+大模型”赛道受到各界高度关注。

科大讯飞多语种智能语音关键技术中的创新和大模型技术是相互补充、相互促进的。

语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。

大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值。

今年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞

可以预测,语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人……这些原有的应用都将被变革,科幻片《她(Her)》中的智能陪伴助理也将成为现实。

今年6月27日,讯飞星火V4.0发布也将公布最新的端到端落地成果,拭目以待。

结语:大国科技竞赛正酣,AI新机遇到来

时隔两年多,国家科技奖再次重磅颁发,引起了整个智能产业圈的强烈关注。

这是十年以来,AI领域项目首次获得国家科技进步一等奖,表明了国家层面对AI产业在技术创新度、转化程度、示范带动作用等方面的盖章认可。

当下大国科技竞赛正酣,是新的挑战,也是新的战略机遇。

就像曾经的互联网技术一样,国产的AI技术不知不觉中已突破奇点,已百花齐放,而大模型技术及应用可能已在爆发前夜。