智东西(公众号:zhidxcom)
文 | 寓扬
去年十月份,马云成立阿里巴巴达摩院,三年拿出1000亿布局前沿技术的研究,并对它提出三个要求,“活得要比阿里巴巴长”、“服务全世界至少20亿人口”、“面向未来用科技解决未来的问题”。
在过去的9个月中,阿里达摩院也陆续传出来自各方的技术大牛加盟;公布了正在研发中的AI芯片Ali-NPU;研发出量子电路模拟器“太章”,率先实现81量子比特(40层)的模拟;应用在上海地铁站的语音购票等消息,但整个达摩院(正如其名)还隐匿在云雾中。
阿里达摩院第一次公开对外,则是近期在杭州举办的一场技术分享活动,现场达摩院来自不同部门的四位专家学者分享了他们的研究成果以及落地应用,智东西也作为首批媒体受邀参与其中。
可以看到,在达摩院的技术布局中,既有应用于当下的语音识别、机器视觉、机器翻译等技术,也有量子计算等中长期布局未来的技术。而在应用场景中,达摩院的技术也广泛的落地在阿里的业务之上,去解决实际问题,比如机器翻译用于阿里的国际贸易,视觉生成用于淘宝广告的自动生成等。
一、围绕人、物、空间 推动机器视觉落地
阿里达摩院机器智能技术实验室资深算法专家谢宣松分享了计算机视觉在产业中的应用,主要围绕人(医疗视觉)、物(行业视觉)、空间(城市大脑)、设计(视觉生成)几个维度来展开。谢宣松谈到,围绕人、物、空间来做一些机器视觉,目的是协助人提高效率。
相比城市大脑和医疗视觉,如何将AI技术落地场景众多、问题更加复杂的产业,以及视觉生成技术如何提高人类效率,更加吸引智东西的关注。
行业视觉是产业落地的一个大领域,场景众多,哪些场景能够让技术落地呢?谢宣松指出3种机器视觉可以落地的条件:
第一种是诊断内容肉眼可分辨,正常&故障样本充足,对漏报有一定的容忍度。这种场景就很适合机器来做,比如对铁路螺母是否松动的监测。第二种是人肉眼难以发现,可根据情况用机器视觉作为代替。第三种是故障样本极少,但造成事故的结果又很严重,这时可以用机器视觉辅助人工检测。
限定了边界后,就可以寻找技术落地的场景了,比如阿里基于视频分析,可以自动进行钢圈安全监测,实测精度在95%以上;再比如通过目标检测和行为分析,对猪的疫情等进行预警,前一段阿里云用AI养猪种瓜,也是风靡互联网圈。
通过行业场景的落地,谢宣松总结到,我们需要深入行业,花大力气明确需求、定义问题;要重视数据,分析各个场景下数据的特点;要简化问题,优先采用简单有效的方案;并且要长期投入,不断迭代优化方案。
视觉生成即通过AI技术,结合用户、场景需求,生成图像、视频等内容,比如广告图像的生成与设计,广告视频的生成,游戏图像生成等,从而提高人类工作的效率。
阿里是以电商起家的,广告需求广泛存在于淘宝商户中,尤其是双十一这样的购物节设计需求大量存在。阿里特意构建了设计知识图谱,通过视觉生成来生成广告效果图。
其中最典型的应用就是鲁班系统在淘宝中的应用。谢宣松谈到,双十一天猫、淘宝上大量的banner图片,其中很大一部分都是系统自动自动生成的。比如去年双十一用AI产图2.5亿张,累计产图10亿张。身为设计师的你看到这一结果是否会亚历山大呢?
除了图片的生成,谢宣松表示,视频和图形的内容自动/半自动生成是一个趋势,也是另一个蓝海。比如在一个电视剧场景中,AI可以识别视频场景中的人物、对话、动作等,在识别场景后,就可以在适当的位置插入相关对象。
现场他展示了一张“天猫国际”的植入广告,以及淘宝商品的视频生成,当然广告只是应用之一,只不过电商平台需求量太大。
谢宣松还告诉智东西,视觉生成的实现是各种技术的综合应用,会借用最基础的识别分类能力,也会用到序列,同样它会用到强化技术的能力,在象素生成和元素丰富上用一些概念能力,最后对整个系统有检测过程,使它满足用户需求。
二、量子计算 中长期的布局
时下火热的一个概念就是量子计算,因为量子计算机一旦取得突破,在算力上就会远远高于经典计算机,从而带来算力革命,但这一现象短期内很难发生。
正如阿里达摩院量子实验室的量子科学家徐华所言,通用量子计算机发展前路漫漫,近期我们期待可以解决特定问题的量子芯片,以及针对量子系统进行模拟的量子芯片。
量子计算数据阿里中长期局部的一项重要技术,由于量子计算过于晦涩难懂,这次分享更多的在于科普,我们可以对几个常见的概念做一个解释:
量子计算,它是基于量子力学的基本原理(核心是量子叠加+量子纠缠),利用量子逻辑实现信息处理的计算技术,对应的机器就是量子计算机。
量子纠缠,对于一对或一群粒子而言,部分粒子的量子状态以来其他粒子的状态,而不能独立的表述,则认为这一对或一群粒子处于量子纠缠。量子通信主要应用的就是量子纠缠,近期中国科大也宣称率先实现了18量子比特纠缠。
量子霸权,这是一个经常被提及的概念,它是指对于某个特定的问题,量子计算机可以解决,但是经典计算机无法解决。2016年Google团队在理论上提出,49个物理量子比特可以在随机量子电路的输出采样这个特殊问题上实现量子霸权。
今年3月份,谷歌提出72个比特的芯片方案。而后5月份,阿里量子实验室团队基于阿里的计算能力,实现了81量子比特的模拟。但徐华总结到,目前的量子霸权象征意义大于实际意义,因为本身解决不是通用计算问题,只能算是技术发展过程当中的一个个里程碑。
阿里量子计算的研究方向涉及物理层、系统层、应用层,希望提供全栈能力的解决方案,为客户提供量子计算能力。
其中今年上半年推出的“太章”模拟器便是量子实验室的一个代表项目。它是一个量子电路的经典模拟器,通过对模拟任务进行有效的分解,利用阿里强大的计算平台,完成了之前超级计算机上做不到的模拟量子计算的任务,实现了对Google计划取得 “量子霸权”硬件的模拟。
但现场徐华也讲到,量子模拟器终归受计算力所限。量子模拟需要继续投入,帮助量子电路设计以及量子算法研究,但是从更长远的研究来看,几百个量子比特超级计算机是不能够模拟的。
近期中国科大宣称率先取得了18量子比特纠缠,智东西也就该成果的实质性意义与徐华沟通,他表示多个量子比特的纠缠是非常有意义的,量子纠缠有一个置信度,置信度是99%与99.99%差别非常大,如果置信度都很高,达到了99.99%以上,这就与实现逻辑比特比较接近了。比如50个逻辑比特组合起来,其算力基本可以达到现在超级计算机的计算水平。
三、机器翻译 阿里国际化的生命线
机器翻译是利用计算机将一种自然语言专为为另一转自然语言的过程。这项技术已经有60年的历史,但在最近30年才可以使用。
阿里达摩院机器智能技术实验室研究员葛妮瑜分享了他们在机器翻译技术中的探索与应用,她将机器翻译称为阿里国际化的生命线,因为阿里国际电商、即时通讯(钉钉)、旅游(飞猪)等场景存在大量的翻译需求。
与谷歌的通用神经机器翻译不同的是,阿里的机器翻译更加聚焦在国际电商、即时通讯、旅游上,采用神经网络机器翻译(NMT)、统计机器翻译(SMT)等多模型结合的方式进行翻译,目前已覆盖21种语言,48个翻译方向。
葛妮瑜介绍,目前阿里机器翻译服务100+业务场景,日均调用7.5亿次,全年翻译字符数超过120万亿,应用于电商平台、物流、支付、云计算、社交等。
在具体将机器翻译落地方面,她讲述了小语种机器翻译和非标准汉语翻译的具体案例。
以阿里巴巴国际站为例,30%用户使用西班牙语、俄语、土耳其语等小语种;2017年前三季度,俄罗斯人在中国购物额占海外网站消费总额的52%,同时全部订单90%都下给了中国;但大约96%的卖家对小语种无能为力。
阿里为了匹配各个业务场景特点,融合多种不同技术,取长补短,进行场景翻译的定制化。具体而言针对小语种进行语料抓取,建立电商知识库,并搭建小语种与汉语之间的双语平行语料库,通过人工排序规则等,进行小语种机器翻译。
另外一个就是非标准汉语机器翻译的斗争,淘宝上商家为了最大化搜索效果,会输入很多词,但是不成句子,平均标题多达30个字,不自然无语法,对机器翻译很有挑战。
葛妮瑜团队结合用户搜索和成交产品,通过这些自动产生的大量准确语料,对商家冗长的标题进行优化简写,并通过模型不断自动优化,从而实现商品信息的翻译。
此外,她也介绍了图片翻译方面的一些探索。传统的方法直接采用机器翻译进行字符识别。而阿里第一步先对图像进行识别,获取内容描述后,再进行字符识别(OCR),通过OCR+图像内容描述,共同进行机器翻译,从而提升图片内容的翻译效果。
四、推行业语音识别
语音识别是一种常见的将语音转换为文字的技术,目前各家做语音识别的公司都号称通用语音识别准确率达到95%以上,但是在细分场景、特殊领域中,这一识别率会大大下降。
阿里达摩院机器智能技术实验室高级算法专家雷鸣分享到,得益于更强大的计算能力,以及更多更真实的数据,语音识别正在快速发展,并且工业界正在成为创新的主流。
目前谷歌、微软、百度等都采用通用识别的技术,与其不同的是,阿里则重点布局了行业语音识别、IoT语音识别和新零售语音识别。
目前应用场景越来越复杂,对语音识别的要求越来越高,随着模型越来越复杂,语音识别的效率越来越低;随着数据体量越来越大,训练时间越来越长,迭代速度越来越慢;并且模型越来越大,很难直接在IoT端进行部署。
阿里针对这一情况,在去年11月上线DFSMN模型,使语音识别的错误率相比之前模型下降20%,同时效率提升2倍,可在IoT设备端应用,并在今年6月将这项技术开源。
在具体应用方面,阿里的语音技术已经广泛应用在家庭、车载、公共空间。比如家庭的智能音箱,上汽荣威RX5中的车载语音交互技术。
而在公共场景中,今年上半年阿里在上海地铁站推出语音售票机,通过语音与视觉多模态组合,帮助乘客快速获取车票。另外一个案例则是在今年的武汉云栖大会上推出的语音点餐机,通过语音交互的方式高效获取服务。
此外,阿里的语音技术也应用到法院庭审中,进行庭审信息的速记。据雷鸣介绍,阿里的智能庭审已经覆盖了近300家法院,6000多个法庭,并应用到杭州互联网法院中。
结语:以解决实际问题为导向的达摩院
通过阿里达摩院四位专家分享和与他们的沟通,我们感受最深的一点就是,达摩院的科研并非“空中楼阁”,而是切切实实的以解决实际问题为导向,目前其研究成果以逐渐落地阿里各个业务线。
此外,在技术落地解决实际问题的过程中,无论是语音识别、机器翻译,还是机器视觉,阿里都在尝试综合应用多种技术来解决实际问题。
比如在于机器智能技术实验室研究员葛妮瑜的沟通中,她也提到,针对自然语言处理(NLP)这个业界难题,他们也在结合汉语的实际情况,通过偏旁部首的研究来提高语义理解的效果。此外她也谈到,用多模态的方式来研究NLP技术也是学界的一个方向。