徐立3

商汤科技CEO徐立:从图像识别到艺术创作 机器视觉如何超越人类?

origin2017全球(智慧)科技创新峰会 人工智能2017/03/10

智东西(公众号:zhidxcom) 文 | origin 编 | 四月 人工智能第三次浪潮风起云涌,产业界大浪 […]

智东西(公众号:zhidxcom)
文 | origin
编 | 四月

人工智能第三次浪潮风起云涌,产业界大浪淘沙,在“GTIC 2017全球(智慧)科技峰会”感受时代脉搏,看见未来。

3月10日,由智东西、AWE、极果等联合举办“GTIC 2017全球(智慧)科技峰会”在上海证大喜马拉雅中心正式开幕。学术界、投资界、创业圈和产业链在这里激烈交锋,NVIDIA、Neato Robotics、科大讯飞、商汤科技、科沃斯机器人、Ninebot(纳恩博)、威马汽车、奇点汽车、驭势科技、歌尔股份、地平线机器人等近40位大佬轮番登台。

作为2017年上半年人工智能领域规格最高的峰会,GTIC聚焦“机器人产业”、“汽车新势力”、“家居物联生活”领域,探讨技术变革下的掘金机会、消费升级与生态建设,带来最前沿的实践经验和判断。

在上午的演讲活动中,商汤科技CEO徐立发表了主题为“看得见的人工智能人机大战和突破极限”的演讲,探讨了人工智能在计算机视觉方面的突破和这种突破形成的应用,以及能够取得这种突破的原因。

徐立2

以下为商汤科技CEO徐立演讲精要:

1、深度学习被创造出来停滞了很久才迎来一个爆发。而这个爆发的节点正是将深度学习应用到计算机视觉领域。

2、人工智能近60年的发展历程,根据演技路线可分为三个阶段:

1) 不如人的阶段,一开始人工智能标准算法其实无法超越人类。

2)现在人工智能水平处在一个分界线——一部分人工智能超越了人类。而人工智能的一个身份是生产力工具,在部分领域超越人类后,它能够替代相当多人的工作。

3)第三个阶段是人工智能超越了专家。普通人的能力比较容易被人工智能战胜,但专家的能力更加强大,数据更加稀缺,人工智能更难以训练出专家水平。人工智能水平超越专家将带来服务和能力的升级。

3、计算机视觉是眼和脑的结合,包含成像、感知与理解。计算机视觉的能力现今已经超越了人类。一方面,在感知上,机器已比人眼更加敏锐,能取得比人眼更多的信息,(比如图像准确的深度信息)图像识别率比人类更高;另一方面,机器在理解层面,某种意义上也能模仿人类作出一些有创造性的活动。

4、深度学习驱动的计算机视觉超越人类的主要原因是,从前的算法是由人类创造,代表了人类的意志,自身的极限就是人类本身,自然也很难超越人类。而深度学习驱动的计算机视觉并不对原始数据做假设,由纯数据驱动,因而也不会受人类的限制。机器视觉在某种意义上进行的是基于数据的,和人不一样的理解活动。

以下为徐立在“GTIC 2017全球(智慧)科技峰会”上的演讲全文:

非常感谢主持人!也感谢智东西和AWE的邀请。我非常荣幸在台上分享我对于人工智能的看法。

实际上我的主题叫“看得见的人工智能”。因为商汤科技做的是计算机视觉方面的内容,是人工智能比较大的分支。计算机视觉通过我们所讲的图片和视频给大家一个智能的分析和理解,帮助大家做预算。

我很高兴被邀请到这个环节,因为前面两位演讲者非常精彩,对人工智能做了回顾,前面两家公司都是百亿市值的公司。

讲到人工智能火热,我不敢说我们在这方面做得多深,因为我们也是一个创业企业。但是,用一些数据跟大家分享一下,我们对这个行业简单的看法。

刚才大家都讲到深度学习是人工智能这一波兴起的核心技术。所以我们统计了这么一张数据库,Google搜索引擎关于深度学习关键词的热搜,深度学习从2006年开始统计,深度学习这个词被创造出来,一直没有一个激进的增长,到一个时间段的时候突然开始爆发。

我们研究人员问我,这张图从中看出什么观点。其实我们都看出来了。研究人员给出这样一个答案,你看这个深度学习的真正爆发是在于将深度学习应用到计算机视觉领域,说明视觉领域是一个非常大,非常有潜力的行业,我听了非常开心,这个也是对我们这个行业的背书。

接下来讲一下关于人机大战。大家一直觉得,这一波人工智能兴起,或者人工智能的火热,或者说普罗大众对这个行业的关注来自于去年的一盘棋,其实这张图是人工智能在行业里面取得了突破。

我把人工智能定义成几个阶段。第一阶段是不如人的阶段,我自己做计算机视觉,做了十几、20年,我们在做计算机视觉的时候,人工智能标准算法,其实没有达到人的准确率,所以是一个不如人的阶段。人工智能带来的核心突破是生产力的工具,当一个生产力工具没有达到人的水平的时候,大规模工业应用是有距离,这也是为什么人工智能在前10年,甚至从20年并没有在行业中取得特别大的突破。

当前,我们一直探讨智能胜过人的这么一件事情。其实现在处在一个分界线上,一部分运算,一部分人工智能超过普通人的阶段,超越普通人就可以提升效率。

第三阶段就是超越专家的阶段。在算法都有一个不同的模式,超越普通人数据比较多,我们做数据问题的时候,普通人的能力和容易通过指导学习标注获得。如果一两个专家的专业知识不是特别擅长能够被机器所获得。我们想说,当人工智能大规模超越专家的时候,它其实必然带来服务和能力的升级。所以这里讲的是智能或者机器视觉这块怎么做到超越人。

我们讲机器视觉是一个很长很广泛的行业,这里面分成两部分,一部分叫成像和感知,主要解决眼睛看的问题。我们可以看到在看的问题里面,其实机器或者人工智能早就做到了超越人。

第二个部分叫感知和理解,这部分代表的是脑子的问题。所以眼和脑的结合,把整个机器视觉内容串起来。

给大家看一张这个图,这是一张拍得模糊的图,请大家看一下,这个图是一张明信片,有没有人看出来这个明信片是哪个城市?我特别喜欢秀这张图,因为我秀过几次,很多人看过这张图,上一次演讲的时候,我举手,这张图叫多伦多,我把箭头指到右边这些小字,机器可以通过一张模糊的照片,通过算法的演进,把背后真正人所要利用的知识获取出来。

再来看另外一张图,一开始有雾霾的时候看不见天,雾霾这个东西是影响我们视觉理解的核心问题。这是我在2015年北京拍的照片。在这种情况下,我们视觉包括背后理解是有缺陷,人类不能通过深层次的雾霾对这个场景有很好的理解。看一下我们技术做到什么情况?,蓝天白云,很好的恢复。所以我想大家也不要相信朋友圈转发在国外度假,其实很多不是真的,机器就可以帮你做到这一切。

除此之外,机器还能做一些什么?因为这些恢复只是增强我们眼睛的功能,延伸人脸的能力,另外一方面人和机器对抗在更有创造力上面,比如说艺术创造。

比如说我们可以把雾霾照片变成一张画,我们现在做的事情,用机器,用人工智能的算法把一些看上去原本枯燥无味的照片变成一张有艺术画的感觉。

再来举一个例子,大家都在讲无人驾驶,李院士也讲天气不好,有雨怎么办,我们就把雨抹掉,我们起名字人工智能抹布,把玻璃上面的雨滴都擦掉,这个也是机器超越人类的表现。

讲到艺术创作,这是一张埃菲尔铁塔的照片,这张照片到互联网上面进行搜索,埃菲尔铁塔关键字搜,就搜出这张画,机器对于刚才这张照片进行了涂改。之前我们做了一个统计,拿这两张照片给我们一个员工做评判,你觉得这两张照片哪张更像是人画的,他看了半天之后跟我说,我觉得是右边这张。我问他为什么,你看右边这张颜色涂得不太均匀,第二埃菲尔铁塔网格画得非常不规则,所以觉得右边这张是人画的,机器画的不会这么差。从某种意义上来说,机器有可能是模仿人的行动真正做出一些有创造性的东西。

再来举一个例子,大家不信机器为什么画的比人好呢?这个是国会大厦的照片,我搜索一张截图,这里面搜索国会大厦画,前三排里面只有一张是画,说明国会大厦太普通了,可能并不会作为很好画的素材,这幅画叫国会大厦现代画,这个还挺有诗意的。这样一幅画在搜索引擎里面唯一搜索出来对于国会大厦的名画。看一下机器画的,这张照片我们做了一个比对之后,让我们员工来做打分的情况下,这张照片是远胜于刚才那张,大家都觉得这张画好。机器超过人,在某种程度上是可以做到的。作为生产力工具,只有达到超过人,才能够被普遍应用,而这也是这一波人工智能产业爆发的起点。

刚才一些应用,包括去雨、去雾霾,可以在微博上面进行一些验证。我们再来取一个在手机上面的突破,很多人都看到过这张照片,一左一右两个人看一下是不是PS过,其实是这么一个房间,房间里面有一个人近大远小,窗本身线是斜的,人并不知道图片里面发生了什么事情。我们看到机器看到了些什么?机器可以通过单张照片恢复出图片的景深,可以知道某一个人和另外一个人在不同的深度层次上,这是我们算法能够做到的事情。我们把现在这个算法移植到手机上,手机单个相机就能拍出类似于单反的效果。

另外一个例子,我们看一下机器能够做到什么样的程度?它可以知道,鞋子和背后的背景是处在一个完全不同的深度之中。一张普通照片可以形成大光圈前景深的效果,并且可以做到想要对焦的地方。这个是我们的算法机器能够做到超越人的部分。

第二个是理解,理解更好理解,因为一些很多的事情,所有的识别理解其实代表真的是我们大脑对这个世界的反应,理解这件事情是带有真正的人工智能。商汤科技在学术圈上有一个叫人脸数据库,在这个环境库上超越了Facebook的算法。我做人脸识别超越了人,很多人不信?互联网上的照片比对,为什么不是100%。我问保安大人,几千个人说你家小孩子怎么了,人怎么可能在这个情况下做的比这个保安还要做得好,我也很疑惑。就给他看这张照片,韩国小姐,拿出这张照片觉得人确实有期限的。

机器能做什么,从数据背后分析出和人不一样的理解能力。现在我们说为什么机器可以做到超越人,我的哲学逻辑是这样。在2010年以前我们做的统计学推理也好,其实用了很多人的知识帮助机器做人工智能推理。所以人工智能指导智能的概念。人工指导智能的极限是指导机器,所以很难超越人,如果不能超越人就很难大规模应用。我们做的事情纯粹从数据中来,用深度学习把大数据消化,从中变出一种,或者提炼出数据当中的规律,我们称之为纯数据驱动,只有在纯数据驱动时代下,它可以做到超过人的性能。

举个例子,它可以靠人脸搜,你想看谁的电影都可以直接搜。再给大家看一个机器超过人类的概念,这个叫变脸,当时说你要去模仿其他人,怎么化妆,易容术挺难的。我们左边同事想变成左边这张照片,如果视频对话上看到一个美女帅哥,其实真的不要太相信,其实很多人都是假的。

最后再给大家猜一道题,左边是一张很小的照片,把这张照片放大是右边这张,所以人脸极限限制住看这么模糊的,其实理论上比较难看清楚。而算法可以从看,从理解的角度,把这张照片进行恢复和比对。结果是这样的。右边这张是我们算法恢复出来的。恢复成这样子的话,我们进行比对。

所以今天演讲主要内容到此为止!我想讲的是我们机器算法在某种意义上干的是超人的事,只有超过人,最后才能达到应用范围!谢谢大家!

智东西