百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西3月3日报道,今天,百度智能云推出曦灵-AI手语平台,该平台进一步降低手语制作、生成门槛,为2800万听障人士搭建无障碍信息通道。

百度集团副总裁吴甜说:“面向公众的演艺型数字人洛天依、银行等公告场所的服务型数字人,越来越多出现在我们的生活中。”

现在数字人形象、动作、服务的背后是一系列的AI技术,百度智能云熙灵-AI手语平台通过跨模态创新、技术加持,降低手语翻译的部署成本、提高部署效率。

现场,“百度智能云曦灵”数字人平台打造的首个AI手语主播担任主持人,该手语主播此前已经在冬奥会上线,为听障人士提供24小时手语翻译服务。

百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟▲“百度智能云曦灵”数字人平台打造的首个AI手语主播

去年百度智能云数字人平台“百度智能云曦灵”已经上线,在数字人生成、运营上带来低成本的技术支撑。

如今,百度智能云曦灵-AI手语平台发布,面向更加垂直、少数的听障群体,用技术为公益赋能。

一、手语数字人平台小时级部署,插电即用

百度智能云曦灵-AI手语平台由AI手语平台和AI手语平台一体机组成,可以实现线上小时级部署。AI手语平台一体机包括V3全离线一体机和P3端云结合一体机,线下插电即用。

百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟▲AI手语平台一体机

百度智能云AI人机交互实验室负责人李世岩说,百度智能云曦灵-AI手语平台包含五大特性,分别是听得清、翻得准、打得好、部署快、产出快。

为了将视频、语音准确翻译为文本,百度智能云打造了SMLTA语音识别算法模型,它能准确识别语音数据,手语翻译识别准确率达到98%。

研究人员利用手语翻译引擎,打造自然手语NLP手语翻译模型,基于“国家手语语法规则”,并和国家手语专家组合作,生成近千万“自然手语语料”句子作为训练数据。

百度智能云曦灵-AI手语平台通过数字人驱动引擎,将人像渲染、动作引擎、口型驱动、表情驱动联动运行,还为手语表现专门设计动作融合算法,带来更接近真人手语表达的连贯表现。

百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟▲动作融合算法

在保证手语识别准确的基础上,百度智能云熙灵-AI手语平台能够达到小时级部署、分钟级生产实时手语合成视频。

李世岩说,我国的手语翻译人数与听障人群的比例为1:2080,大多数听障人群与社会存在信息鸿沟。

《无障碍环境建设“十四五”实施方案》与《广播电视和网络视听“十四五”科技发展规划》都提出了对信息无障碍、AI无障碍播报的关注。

手语不同于说话,它是一种视觉语言,汉语中我们可能直接说出“猫抓老鼠”,但视觉语音相对反应更慢,需要先看到猫、老鼠,再看到抓的动作,才能准确将信息传达出来。

因此,百度手语数字人整合全链路的AI能力,语音、视频数据需要通过语音识别引擎转变为汉语文本,然后通过翻译引擎转化为手语码,在数字人动作融合算法加持下,生成听得清、翻得准、打得好的手语视频。

目前手语问题的三大挑战是部署难、数据少、要求高。

首先,火车站、机场、医院等都是听障人士的需求场景,但实际生活的场景环境多元,网络环境、声学环境更加复杂。

其次,手语是一种真正的小语种,其数据量少,使得手语数字人翻译质量的提升受限。

第三,手语的语义表达和健听人的语言不同,因此在打造手语翻译系统时不仅要追求高效率,还要保证手语翻译的准确性。

因此,手语翻译平台的部署速度、成本要求都更高。

二、线上、线下场景优化,实时、精准手语翻译

百度智能云曦灵-AI手语平台具有四大功能,分别是视频手语合成、直接手语合成、文本转手语、语音转手语,针对线上、线下场景进行优化。

在线上场景,为了满足图文、视频、直播三类形式,百度智能云熙灵-AI手语平台针对不同数据进行了适配和优化,包括用于新闻、电影、电视剧等场景的视频手语合成,支持新闻、文档、小说等多种图文场景,以及赛事直播、实事直播等场景。

值得一提的是,百度智能云曦灵-AI手语平台中千字文本转手语合成仅需要几秒钟。

百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟▲文本转手语

目前,线上版本已经在央视新闻客户端上应用,目前已经生成200多条手语视频,总观看次数超1亿次。

除去线上场景,线下场景对无障碍窗口需求也很迫切。

根据2015年《中国聋人群体手语翻译需求与翻译服务现状研究》,火车站手语翻译窗口购票服务仅有2.75%的听障人士顺利购买到火车票,在医院就医中有3.56%的听障用户会因为沟通不方便拒绝前往医院就医。

因此,部署快、成本低的无障碍设施部署尤为重要,百度智能云熙灵-AI手语平台能够快速实现无障碍窗口的建设。

三、构建手语翻译模型,主攻三大难点

最后,天津理工大学聋人工学院副院长袁甜甜、百度语音技术部总监高亮、百度人工智能技术委员会主席何中军针对产品技术领先性进行了深度解读。

百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟▲天津理工大学聋人工学院副院长袁甜甜、百度语音技术部总监高亮、百度人工智能技术委员会主席何中军圆桌论坛

袁甜甜说,他们和聋人学生的沟通交流过程中发现,听障学生和健听人缺乏有效的沟通交流手段,沟通过程中会有恐惧心理,通过人工智能技术辅助沟通是一种很好的方法。

从百度智能云曦灵-AI手语平台的特性出发,听得清和百度AI的语音技术分不开。高亮称,解决直播场景下的实时问题是关键,AI手语平台中数字人的识别是连续的,要做到又快又准,会对模型要求更高。百度智能云采用最新的语音大模型技术,为了在实时识别的同时做到更高的准确性。

何中军谈道,手语翻译其实比传统文本翻译更难,语音处理、文本翻译、视觉技术,具体到文本转到手语码有三大难点,第一个是顺序不同,表达上不一致,需要调整语序;第二个是词汇不一样,通用手语词典中仅有8000个词,远远少于实际应用中的词汇;第三个是说话的语序更快,手语识别中需要精炼语言,保证实时性。

百度智能云平台基于机器翻译技术的积累,构建手语翻译模型,从真实的训练数据中,自动学习识别对手语翻译视频的长度控制、语音识别,形成连贯的手语翻译句子。

在实际应用中,手语翻译更常见的是手势汉语,也就是依照正常人的说话语序将词语、句子通过手势表达出来,但自然手语才是更符合听障人士阅读习惯的用法,需要调整语序,省略不必要的词汇,表达更加准确、凝练。

何中军说,现有的机器学习技术都是基于大数据,但自然手语数据库特别少,可以用于训练的手语数据几乎没有,因此研究人员成立了一个手语专项项目,和天津理工大学的听障学生合作,标注大量真实数据,再加上先进的算法,才达到了现在的效果。

在听障人士的表达中,表情、肢体动作和手势同等重要,袁甜甜补充道,百度智能云曦灵-AI手语平台通过融合的、多信道的表达方式,才更符合听障人士的表达习惯。

结语:搭建AI技术和无障碍沟通的桥梁

用AI驱动手语翻译视频生成,可以进一步降低手语翻译的技术门槛,并且百度智能云致力于将授予数字人覆盖至广电、金融、出行、医疗、政企、文旅等多个场景,从多维度为听障人群带来便利。

百度智能云曦灵-AI手语平台针对不同场景,构建语音交互模式、专业术语识别等,在更加专业垂直的领域,促进AI手语平台的适配度,让手语数字人为更多听障人士架起沟通桥梁。