胡郁1

科大讯飞胡郁:交互界面与垂直深度应用 锁定AI产业两大机遇

Lina2017全球(智慧)科技创新峰会 人工智能2017/03/10

智东西(公众号:zhidxcom) 文 | Lina 编 | 四月 人工智能第三次浪潮风起云涌,产业界大浪淘沙 […]

智东西(公众号:zhidxcom)
文 | Lina
编 | 四月

人工智能第三次浪潮风起云涌,产业界大浪淘沙,在“GTIC 2017全球(智慧)科技峰会”感受时代脉搏,看见未来。

3月10日,由智东西、AWE、极果等联合举办“GTIC 2017全球(智慧)科技峰会”在上海证大喜马拉雅中心正式开幕。学术界、投资界、创业圈和产业链在这里激烈交锋,NVIDIA、Neato Robotics、科大讯飞、商汤科技、科沃斯机器人、Ninebot(纳恩博)、威马汽车、奇点汽车、驭势科技、歌尔股份、地平线机器人等近40位大佬轮番登台。

作为2017年上半年人工智能领域规格最高的峰会,GTIC聚焦“机器人产业”、“汽车新势力”、“家居物联生活”领域,探讨技术变革下的掘金机会、消费升级与生态建设,带来最前沿的实践经验和判断。

在上午的演讲环节中,科大讯飞执行总裁、消费者BG总裁胡郁发表了名为“人工智能+,共创新时代”的主题演讲,详细解构了人工智能的最大挑战:感知智能和认知智能,以及人工智能未来在人机交互界面、垂直行业的深度应用的想象空间。

胡郁2

以下为胡郁演讲的要点精摘:

1、虽然近两年人工智能的概念很火,但是要对人工智能本身有一个良好认知,对制定战略,按照科技、商业发展趋势的战略来推进是非常重要的。人工智能的三次浪潮:从1956年Dartmouth会议人工智能诞生后,60年过去了,在历经了两次起伏后,近10年来,人工智能迅速发展,从2006年深度学习理论被提出开始,不断发展,直到2016年深度学习应用(Memory、DNC、GAN)全面开花,充分发挥大数据的能力。现在AI已经进入第三次浪潮,成为真正爆发的前夜。

2、感知智能与认知智能是人工智能的最大挑战。如果比较运算和存储能力,人类早已不是机器的对手;而在感知智能和运动智能方面,机器也在快速进步,与人类越来越近。然而在逻辑推理、知识学习、语义理解方面,人工智能还需要突破。

3、2014年8月,讯飞正式启动讯飞超脑计划,研发基于类人神经网络的认知智能系统。借鉴脑科学的最新技术,理解大脑运算过程,从逻辑推理到语言表达;从感知智能和认知智能两个层面进行突破,既通过传感器和算法感知世界,又能够对自然和人类世界进行认知。

根据报告科大讯飞的语音云平台从2015年10月至今,累计终端数从6亿升到9.3亿,日均使用次数从10亿升到30亿,而第三方创业团队也从7万升到了了26万。

4、人工智能从两个方面改变人类生活:1)升级人机交互界面;2)垂直行业的深度应用。

1)早期PC时代,键盘字符交互;中期互联网时代,鼠标和图形显示第二代交互;现在万物互联,我们进入智能生活方式以语音交互为主,触摸交互为辅。以前我们是以机器为中心进行交互,未来会以人为中心进行交互,人类不再需要学习机器的交互方式。万物互联浪潮下,人根据语音的控制,根据视觉的控制,然后配合手的操作,完成整个的交互。

语音交互包括强/弱视觉呈现:远场,无屏,移动环境下的弱视觉呈现语音交互(远程翻译)。以及涉及内容及服务的强视觉呈现语音交互(比如网络购物)。

2)除了科大讯飞的优势领域——语音合成与机器翻译外,人工智能还可以进一步在家庭(智能家居、智能电视)、汽车(车载语音交互系统)、教育(个性化教育)、医生(个性化医疗)方面进行突破。随着感知智能和认知智能的进化,人工智能将能够在生活的各个方面起到决定性的作用,成为各个垂直领域的专家。

以下为胡郁在“GTIC 2017全球(智慧)科技峰会”上的演讲全文:

今天很高兴来到现场,人工智能这两年引起很多人的关注,但是对人工智能本身有一个正确的认识,对于不管在科技界,还是在产业界,甚至在我们大众心中,建立一个非常良好的认知都是非常有必要的。因为人工智能到底是什么,它的产业环境是什么,它将会向什么方向发展,其实对于我们如何制定自己的战略,我们如何能够更好地按照科技发展趋势和商业发展趋势规律去推进是非常重要的。

所以,在过去几年当中,包括科大讯飞,包括国内很多人工智能研究人员和企业家,其实我们在这方面做出了不断地理解,这里面也借这个机会和大家分享一下。

大家都知道最近有几本书讲人类简史和世界简史,当我们理解人工智能都理解机器智能是怎么发展的,如果要讲到人类智能发展,如果我们理解宇宙历史是从130亿年前宇宙大爆炸开始,130亿年发展过程当中,到了40亿年地球上产生了生命。在生命基础上,又经过了40亿年,大概3、4百万年前就产生了人类社会。所以我们经常看一些描述,3、4百万年产生了猿人,到7万年前人类才变得聪明,从而统治了地球。从世界角度,我们看到人类智能所产生的世界在什么地方?

是在我们自然世界里面,就是我们宇宙,这个宇宙有130亿年。因为产生了人类以后产生了一个新的世界,这个世界叫做精神世界。我们人脑所想的这些内容,这个在原来宇宙里面是不存在的。有的时候我们经常讲,如果宇宙里面没有了人类,其实这个里面可以少很多的噪声。但是有了这两个世界,我们一个叫自然世界,一个叫精神世界以后,在1946年,人类创造了一个新的东西,1946年一个数字计算机的发明使人类创造出了一个全新的世界。

大家最近看一本书《图灵的大教堂》这本书里面,其实在计算机的先驱,包括图灵,包括哥德尔,这些人创造新计算机他们创造了一个新的宇宙,这个叫数字宇宙。当时人意识到这一点人类创造出一个全新的 不一样的世界,有了自然宇宙,有了精神宇宙,另外有了数字宇宙。而我们谈论的人工智能在数字宇宙中产生一个新的东西,是人类所孕育的生命。

从这一点上讲,我们要非常感谢当时提出人工智能的这些伟大科学家,在数字宇宙产生新的生命,会产生新的智慧,这些人大家都知道,就是1956年美国达特茅斯参会的人,这些人员里面经过过去60年到2016年正好60年,正好是一个周期,2016年参会人员最后一位创始人之一去世,从而形成人工智能第一个整个过程的结束。其实可以看到,当时这些人已经成为那个时代的引领者,他们有4位诺贝尔奖获得者,其中中间可以发现一个规律,这些人不是一个单纯的某一个学科的的专家,他们是多学科交叉的专家,这个充分展示人工智能不是一个简单的事情。

而且大家都知道,在这个过程中,其实是有起起伏伏的,如果做过语音技术的人都会知道,在语音产业里面有一句非常有名的话,语音技术的爆发总是在下一个5年会到来。我们总是说,5年以后就可以了,但是事实上不是这样。1956年人工智能这个概念被提出以后,大家乐观认为,10年到15年,人工智能在数字宇宙就能全面突破,帮助我们人类解决很多问题。但是实际情况是,在那一年,在那以后的10年,其实只有很少的进步。但是后面随着个人电脑的发展,在80年代,又迎来新一波的热潮,这新一波的热潮里面,其实可以看到中国在这里面奠定我们在科研方面的基础,就是863计划,当时提出智能计算机。而智能计算机当时受到日本提出第5代计算机,第5代计算机是人工智能第二代浪潮非常标志的时代。

另外一个方面,诞生了一批真正在人工智能基础技术上具有积累的研究院所和科研人员和上市公司。但是在这个过程中,大家并没有看到人工智能爆发,真正迎来90年代下半叶,2千年左右,人工智能毕业的学生找不到工作尴尬的境地。因为在同一个时代,另外一种技术悄然崛起,我们把它叫IA。大家看很多现在描述历史书中叫智能增强的技术,极大丰富原来人类的能力,使人工智能变得没有那么必要,人工智能当时没有突破。包括互联网,移动互联网。正是因为这些技术的发展,使AI的发展变得没有那么迫切性。

一个非常典型的例子,80年代非常重要的语音识别,当时我们所有信息入口是电话,被互联网所取代。所以语音识别的需求重要度陡然降低。但是在这个过程中,其实为这次人工智能爆发奠定基础。因为这个过程中,有互联网、大数据,移动互联网,为我们现在的人工智能发展奠定了基础。大家也知道深度神经网络如果没有大数据支撑,如果没有云计算的支撑,深度神经网络是不能发挥它的威力。1957年深度神经网络被提出来,但是它一直没有发展,当数据量不够的时候,它是没有办法打败其他的深度学习。只是在大数据情况下深度神经网络突破原来深度机器学习的极限,才能发挥它的威力。这是我们看到的近10年的道路。

但是人工智能到底跟人,因为大家都知道,智能是很多层面上的,动物也有智能,人也有智能,人工智能到底达到什么程度。有些人说,人工智能只是算法的集合而已?对于这个问题,科大讯飞在2014年发布会,我们第一次阐述人工智能应该变成不同的层次。比较简单的,计算机被发明出来的时候,第一台计算机是帮人类计算,用计算机计算和模拟核武器的过程。我们把这个叫做运算智能。计算已经是一个非常高级的名词了,运算算得特别多,阿尔法狗为什么战胜人类,因为它自己产生3千万棋局而且并且把它使用。

讲到人类和动物够用的是感知智能和运动智能,这些东西里面有非常表现化的东西,我们看到东西,听到东西,和我们的肌肉记忆,和打网球手部挥动结合起来,这种感知智能和运动智能构成人类和动物基本的智能表现。但是,人类所独有的,如果要真的说的话,还是认知方面的东西,今天我们在这里开会,如果放一只猫进来,它绝对不知道我们在干什么。在认知上它达不到这样的高度。

我们和动物同样能看到天上的月亮,动物只知道那是一个东西,我们人类知道那是一个星球。如果讲到运算,这是机器本来就知道的事情,机器运算量只要一天一天不断提高,再复杂的运算问题,像围棋的运算问题都能被解决。

但是讲到感知、认知智能,人类变聪明是7万年前人类掌握了语言,而掌握语言可以组织更大的团队,可以有虚拟概念,创造我们的精神世界。这项技术到现在,我们机器现在还难以掌握的。

大家可以看到这里面最关键像语言理解,知识学习、逻辑推理这些非常复杂的功能。人类工作很大一部分,比如说可以讲到跑步或者打球这些运动,它不需要像科学家这样的大脑,或者像文学家这样的写作的人。当你进入白领工作的时候,必不可少要进入认知的时代。

在过去3年当中,刚才有两个非常重要的概念,一个是把智能分成预算智能,感知智能,运动智能和认知智能。第二个,我们注意到在认知智能的过程中,语音和语言起到决定性作用。因为只有语音和语言技术突破,才有可能使我们人类知识表达、逻辑推理和自主学习达到一定的高度,包括艾瑞咨询他们在人工智能分类上会接受这种表述方法。我也觉得这个应该是现代至少是我们认为的一个方向。

2014年,讯飞宣布的讯飞超脑计划,就是在感知智能和认知智能这两个方面实现突破。而突破的方式,其实现在我们借鉴脑科学方面的最新技术,因为你要实现真正的我们所谓强人工智能,它像大脑一样具有超强的学习能力,必须对脑的整个过程有很强的理解。在这个过程中,我们所构建的讯飞超脑,其实包括两个层面的基础。

一个方面是我们讲到感知层面,我们看、听、读,他们在认知层面上主要是做逻辑推理,再表达出来。这个过程它做什么呢?我们可以看到,在过去11年里面,世界上最顶级的语文语音合成大赛,我们连续11年第一。去年美国有一个英语识别大赛,我们3次比赛中全是第一,我们把比赛成绩从上一年的效果提升了100%。

除此之外,在过去几年当中中英文语言翻译重新回到中国人的手上。最重要关于人工智能的测试,当前在人工智能领域有7代超越图形测试叫Winograd测试,他就是测试人类的常识,这些常识是机器非常难以学习的,比如说他会说,父亲举不起儿子,因为他太重了,或者谁太重?父亲举不起儿子,因为他太虚弱了,谁虚弱。我们支持了很多美国研究机构,而我们两个研究单位,一个是加拿大的,一个是讯飞研究院参赛获得前两名。

其实这个为我们将来在感知和认知奠定了很好的研究基础,但是在这个基础上推出AIUI的交互界面,这个交互界面会向所有的手机、车载、电视、智能家电、智能家居、穿戴式设备提供最先进的语音交互能力。我们已经积累了9亿用户,每天使用次数超过30亿次,第三方创业团队超过26万。

在这样的背景下,人工智能到底应用在哪样的领域?我们发现,人工智能如果从公共角度,主要分成两个大的方面。一个方面人工智能改变人类和机器的交互手段,它通过触摸、语音、图像各种各样的方法,让我们和机器之间的交互没有更大的障碍。但这只是人工智能一半的功能。而另外一半的功能跟交互没有关系,人类需要更好的医生,最好的老师,最好的法官,最好的律师,最好的公安干警,他们需要能够理解我们现在工作内容,能够去处理里面的知识,并且做出判断。在各个行业里面,我们都缺乏这样经验人才,而人工智能是能替代它的。

从交互角度来讲,交互在过去几十年里面,随着IT产业变化不断发生变化,从原来的纸带打孔,到后来的键盘,到现在的触摸交互,触摸交互是有视觉呈现下人的触觉的交互。但是我们会发现,机器变得越来越聪明,使人学习机器的交互能力的需求变得越来越低,当我们用语音和触摸的时候意味着人类补需要再学学习新的交互方式,比如说打键盘,或者操作鼠标,可以用天生生下来的就有的功能和机器进行交互。

我们现在看到众多的为什么能够进行这样操作,是因为我们在电话里面,只听到语音,其实我们已经可以干一些简单的工作,比如说打电话,发短信。比如说查一些简单的信息,比如说买一包大钱门,或者云烟,但是你在语音操作的时候,必须看到丰富的图像。比如说你要购物,你要买一件衣服,你没有看到图像你是没有办法操作的。你要点餐,也需要图像跟你进行服务。这一切现在整个视频技术和语音技术都可以支撑。它将会影响到我们很多方面,比如说人机交流,翻译现在已经有很多设备,包括讯飞出了很多设备支持它。听见,今天大会没有上,下次可以和AWE合作,我们讲的每一个字可以实时大屏幕上呈现。

在交互方面,像Siri这样的产品,像搜狗输入法这样的产品,极大改善我们在未来设备上输入的效果。在智能电视上有非常大的突破,大家在电视屏幕上不需要用原来复杂的遥控器,语音一个按键就可以了,甚至将来一天就不需要用遥控器,直接对着电视大屏幕说就可以了。

AI汽车里面也有非常先进的技术,包括奔驰专门买了奇瑞一辆车专门了解语音交互。所以这些方面可以很好改变,包括刚才李院士说到,将来你要跟自动驾驶汽车要有交流。

而另外一个方面,除了交互以外,在这个行业里,老师有哪些技能,老师可以帮你批作业,老师可以给你布置只有你需要做的针对化的题目,但是有一个前提,这个世界上要有足够多的优秀的老师。每个学生配一个老师这种愿望能达到吗?当然可以。但是你的人工智能必须要突破。每个人是不是想要一个自己的医生,当我说出病症的时候,当我说出我的感觉的时候,它就给我一个个性化的城市,大家为什么去大的城市,三甲医院,因为只有这样的医生才能保证他的生命安全。

而在人工智能都可以做到。中国是世界上唯一能够大规模进行英语口语考试的国家,世界没有哪一个国家在大型考试考英语口语的,中国可以。中国实现了给每一个学生配一个老师,每一次做的题目,不管是选择题还是填空题还是作文,机器可以自行批改,根据你的信息给你不同的家庭作业。现在我们在广州分校一个实验班,让英语和数学上进行这种智能化的学习,他们班级英语提升了3、4名。

如果我们人工智能替代最好老师60%—70%的水平,现在的人工智能是可以达到这一点的。在医疗方面,希望每一个医生针对我们的病情详细看我们片子。最新我们做的技术在癌症数据库筛查上已经远远超过人类,在分级诊疗过程中,我们系统可以通过现在的医学资格考试,因为我本身也是国家863重大项目的首席专家,带领国家100多个专家研究参加高考的机器人,就像IBM的沃森,IBM提出最早,沃森在医疗方面应用很多。

863机器人150分的卷子,语文可以考到90分,地理100分的卷子可以考到40分,因为地理卷子太南,因为既有既有文科的推理也有立刻的推理。

将来能达到人类最顶级的天才的水平,接近人类专家水平而远远好于一般人的水平,在我们生活各个方面都能起到决定性的作用。

刚才大家看到,李院士给我们指导很多,不管在前瞻技术上还是产业上,我相信人工智能将来在改善人和机器交流,影响到我们所有的消费者领域,所有的中心产品。另外在行业深度应用方面会替代很多。所以将来的社会,每个公司都有自己的人工智能,云计算和大数据。将来的商业生态每个公司都有这样的技术前提下,如何共享人工智能,如何共享云计算,如何共享大数据。只有找到这些合作方式的人,才能引领我们将来的社会。

所以今天在这里非常期待大家,一方面大家对人工智能有更多关注,我们希望第三次浪潮带领人工智能真正爆发。同时期待在新的时代,能够和更多的产业合作者一起找到在将来的生态中共赢的机会。谢谢大家!
zhidx