智东西(公众号:zhidxcom)
文 | Lina

智东西7月9日消息,今天,阿里达摩院的三位技术大咖——达摩院机器智能技术事业部首席架构师王骏、达摩院语音实验室负责人鄢志杰、 达摩院资深算法专家雷鸣——对达摩院最新的AI技术进展进行了分享,包括基于机器视觉的人类行为识别跟踪技术、AI卫星遥感影像分析技术等等。

与此同时,阿里今天还宣布,其基于KAN-TTS的语音合成技术现在已经向B端客户开放商用,它能基于5大场景、提供34种不同声音,而且能够让企业与个人定制其专属“AI声音”,该技术目前已经用在了高德地图、天猫精灵、夸克浏览器等应用中。

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

▲达摩院机器智能技术事业部首席架构师
王骏

在被问到达摩院机器智能技术事业部今年是否有营收预期时,王骏告诉智东西,当前机器智能技术事业部的价值在于“被集成”,更多的是将新技术放在阿里云上,让用户通过阿里云使用。他认为,当前AI技术作为单品产品形成销售价值还很早。


▲KAN-TTS语音合成效果现场展示,不仅有男、女、童声,还有粤语

一、5大场景,34种不同声音

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

▲达摩院语音实验室负责人
鄢志杰

根据达摩院语音实验室负责人
鄢志杰介绍,KAN-TTS(全称Knowledge-Aware Neural TTS)是阿里早在2017年就撰写过相关论文的语音合成技术,它深度融合了端到端TTS和传统TTS技术,用更低的成本、更短的数据录制周期,合成更像人类的语音。

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

KAN-TTS有以下几大特点:

1、深度融合了端到端TTS和传统TTS
2、基于不同领域深层Knowledge
3、针对CPU部署的框架设计和效率优化
4、20多项关键算法改进

目前,阿里云已经能提供基于KAN-TTS的工业级语音合成服务,基于5大场景、提供34种不同声音,包括温柔的女声、沙哑的男声、稚嫩的童声等等。

而且,客户可以通过KAN-TTS定制自己的“专属AI声音”。

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

据阿里介绍,传统TTS定制需要10个小时以上的数据录制和标注,其定制成本要百万以上,定制周期要半年以上。

而现在基于阿里的KAN-TTS技术,不仅可以让客户“专属AI声音”的成本降低10倍以上,其定制周期也能缩短3倍以上,只需要录制1小时有效数据,不到2个月就能完成。

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

除了B端用户之外,普通个人用户也可以使用这种AI定制专属声音的技术,只需要用手机录制10分钟的声音素材,就能得到不错的效果。

二、机器视觉:新零售、AI卫星遥感

此外,达摩院机器智能技术事业部首席架构师
王骏也介绍了达摩院在视觉AI方面的新进展,包括基于机器视觉的人类行为识别跟踪技术、AI卫星遥感影像分析技术等等。

通过达摩院的计算机视觉技术,机器能够在开放自然环境里,对视频中人类的行为进行识别和跟踪,比如它能识别并持续跟踪拳击比赛中两个选手的动作。而且,这种技术可以进行跨摄像头的全域跟踪。

王骏说,这种技术非常适用于新零售场景——因为它不仅能让AI识别人的属性,还能够知道人的行动轨迹,能让新零售商户知道你的目标用户是谁,同时了解目标用户的行动轨迹。

与此同时,王骏还展示了达摩院的AI卫星遥感影像分析技术。通过AI分析行卫星遥感影像,能够实现建筑、道路、水体、土地使用情况的动态常态监管、精准监管。

据阿里介绍,AI卫星遥感影像分析技术已经在淄博市5965平方公里土地上进行违章建筑和破坏森林等行为的识别,将传统的几个月的分析时间缩短至几分钟。

三、达摩院遍布四个国家八大城市

两年前的云栖大会上,马云用将近40分钟的时间详细讲述了阿里投资一千亿人民币成立的全球研究院——“达摩院”的想法。当天马云还提出了达摩院的三个原则:一定要活得比阿里久;至少要服务世界20亿人口;必须要解决人类未来的问题。

据介绍,达摩院当前人工智能技术研发的主力正是机器智能技术事业部,它的前身是阿里iDST (Institute of Data Science and Technologies)。

达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩【附视频】

当前,达摩院的办公室分布在四个国家、八个主要城市,是一个全球化的科研机构,从长期研究计划(如量子计算)到短期落地研究(如人工智能技术与产品)都有涉及。

达摩院语音实验室负责人鄢志杰表示,达摩院会把最先落地的、最好的AI技术都放在阿里云上——“阿里内部能用到什么,阿里云的客户就能拿到什么”。

结语:以解决实际问题为导向的达摩院

虽然“达摩院”听起来非常高大上,但是通过这次的沟通交流,我们感受最深的一点就是,达摩院的科研并非“空中楼阁”,而是切切实实的以解决实际问题为导向,目前其研究成果以逐渐落地阿里各个业务线。

此外,在技术落地解决实际问题的过程中,无论是语音识别、机器翻译,还是机器视觉,阿里都在尝试综合应用多种技术来解决实际问题。