智东西(公众号:zhidxcom)
编译 | Glu
编辑 | 李水青

智东西7月7日报道,在7月6日举行的2023世界人工智能大会(WAIC)开幕式上,人工智能专家、香港中文大学教授、商汤科技创始人兼执行董事汤晓鸥发表了主题为《你好,上海》的演讲。

这个主题由电影《你好,李焕英》延伸而来。他解释说,从1994年的2500万元到2021年的54亿元票房,是中国原创电影人创造的奇迹;而现在,中国科技原创者也逐渐看到了曙光。

▲人工智能专家、香港中文大学教授、商汤科技创始人兼执行董事汤晓鸥

接着,他分享了他的三名学生王晓刚、何恺明、林达华在深度学习领域追梦的故事:王晓刚让机器的人脸识别首次超越了人类眼睛;何恺明开发了计算机视觉领域的流行架构——深度残差网络(ResNets),解决了深度网络梯度传递的问题,成为GPT等大模型系列的基础;林达华主导发起了国际上最具影响力的视觉算法开源项目OpenMMLab。

商汤汤晓鸥:我的三个学生,如何影响AI世界

▲Yann LeCun、Geoffrey Hinton、Yoshua Bengio ,图源网络

汤晓鸥认为,2018年,深度学习领域的三位研究员Yoshua Bengio、Geoffrey Hintion、Yann LeCun被授予计算机界最负盛名的“图灵奖”,打开了深度学习的大门。但开启这扇大门的第一声门铃,是由学者邓力、Hintion按响的,他们2011年在语音识别中引入DNN(深度神经网络),从而取得了深度学习语音识别领域划时代的突破;2012年,他们在计算机视觉识别领域中同样取得了划时代的突破。

“那么,2011年到2013年深度学习刚起步的时候,我们做了什么呢?”汤晓鸥引出了他的第一个学生,商汤集团联合创始人、执行董事兼首席科学家王晓刚的故事。

一、王晓刚:让机器人脸识别超过人眼,曾打败谷歌

王晓刚本科是中国科学技术大学(简称:中科大)少年班,并且是中科大最好班级之一00班的第一名,硕士期间就读于汤晓鸥实验室,并在2009年博士毕业后,再次回到了该实验室。

商汤汤晓鸥:我的三个学生,如何影响AI世界

▲ 商汤集团联合创始人、执行董事兼首席科学家王晓刚,图源网络

汤晓鸥说:“2011年到2013年的国际计算机视觉与模式识别会议(CVPR)和国际计算机视觉大会(ICCV)这两个计算机视觉最重要的会议上,全球共有29篇文章以深度学习为主题,其中有14篇出自我们实验室。我们有18项工作是在全世界第一次将深度学习用到视觉问题上,包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。在深度学习的大门上,我们按了18次门铃。”

汤晓鸥还介绍道,王晓刚研发了DeepID人脸识别技术,让机器做的人脸识别首次超过人类的眼睛,这比Facebook(现Meta公司)做的还早。此外,王晓刚2015年带队打败了谷歌,取得了中国学者史上的第一个大规模视觉识别挑战赛ImageNet世界冠军。

二、何恺明:GPT类大模型都在用他的网络结构

第二个学生是何恺明。何恺明是2003年广东高考状元,本科就读于清华物理系,硕士、博士期间师从汤晓鸥。

商汤汤晓鸥:我的三个学生,如何影响AI世界

▲ Facebook AI Lab研究员何恺明,图源网络

汤晓鸥说,何恺明读硕士期间就发了第一篇文章,并取得了2009年的CVPR最佳论文,这是CVPR整个25年历史上第一篇出自亚洲的最佳论文。当时汤晓鸥和何恺明开玩笑:“你一出手就到了巅峰,从此以后,你的学术生涯就只能往下走了。”但后来,他去微软和Facebook工作后一路走高。

2011年,何恺明加入微软亚洲研究院(MSRA),继续研究计算机视觉和深度学习。在2015年之前,深度学习最多只能训练到20多层,他在网络的每一层引入了一个直联通道,从而解决了深度网络梯度传递的问题,获得了2016年的最佳论文。此后,学界可以训练超过百层的深度学习。在大模型时代,以Transformer为核心的大模型,包括GPT系列,也是普遍采用了这个结构,以支撑上百层的堆叠模型。

汤晓鸥笑说:“何恺明把网络做深了,谷歌把网络的入口拉大了,又深又大,才成就了今天的大模型。”

何恺明2016年加入Facebook AI Research(FAIR),在这期间,他首次提出了一个真正高性能的物体检测和算法框架MaskR-CNN,并获得了ICCV 2017年最佳论文。

汤晓鸥称,何恺明是世界上唯一一个在毕业不到十年内,三次以第一作者的身份获得CVPR、ICCV最佳论文的人。他首次把基于源码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习大门,并被推广到三维、音频甚至是AI领域。

汤晓鸥还透露,何恺明即将会有一个“比较震撼的动作”。

三、林达华:主导OpenMMLab,开发书生系列大模型

第三个学生是林达华,他本科就读于中国科大,硕士在香港中文大学,博士是MIT(麻省理工大学)。他2010年在MIT读博士期间,获得机器学习的最高奖——NIPS(神经信息处理系统大会)最佳学生论文,2014年回到汤晓鸥的实验室做教授。

商汤汤晓鸥:我的三个学生,如何影响AI世界

▲香港中文大学教授林达华,图源网络

汤晓鸥称:“林达华的第一项工作成果是OpenMMLab,2018年从一个小团队开始,在没有推广投入的情况下,以口口相传的形式成为国际上最具影响力的视觉算法开源体系,在GitHub上累积了8万多个星标,目前用户遍及全球140多个国家和地区,60%用户来自海外。”

汤晓鸥还介绍了林达华的其他两项工作成果,即将正式发布的千亿参数、8K的多语种大语言模型“书生·浦语”,和2000亿参数、覆盖100平方公里的城市级实景三维大模型LandMark。

四、AI大树“结果”:全华团队首次获CVPR最佳论文

对于三名学生在人工智能领域的成果,汤晓鸥评价:“王晓刚在深度学习兴起的最初几年,洒下了很多原创的种子;何恺明将深度学习的根基打得非常牢、非常深;林达华通过开发和大模型让它枝繁叶茂。”

他还说:“让我非常欣慰的是,这颗大树已经开始开花结果。就在两周前,我们的自动驾驶大模型从9155篇文章中脱颖而出,获得了CVPR 2023年的最佳论文奖。”汤晓鸥援引谷歌学术统计,称这是改革开放40多年来第一篇全部由中国学者完成的国际计算机视觉三大顶会的最佳论文,论文的牵头作者是王晓刚带出来的博士。此外,OpenMMLab是林达华带出来的博士陈恺做出来的。

当年汤晓鸥实验室的另一篇“超过人眼的人脸识别技术”论文的作者陆超超,也从剑桥大学博士毕业回到了上海,正在和中国唯一的图灵奖获得者姚期智先生在上海的期智研究院合作,从事AI基础理论研究。汤晓鸥不禁感慨道:“人工智能领域,新一代的学生已经在上海成功起步!”

在演讲的最后,汤晓鸥再一次感谢上海,感谢合作过的学生与老师,并援引了于谦在电影《好老师》的一句台词:“我不是在最好的时光遇见了你们,而是遇见了你们才有了这段最好的时光。”

作为一个在上海工作的东北人,汤晓鸥带有东北人自带的幽默感,他最后感叹到,自己每天晚上睡觉前,都是一边听着于谦老师的相声,一边在想:“机器怎么可能超过这样有趣的灵魂?我不信。”

结语:中国AI高峰背后,几代人砥砺前行

在2023 WAIC上,汤晓鸥分享了自己的三名学生在大模型领域做出的原创贡献,包括王晓刚让机器的人脸识别能力超过人眼;何恺明开发深度残差网络,把网络做深,助力今天的大模型;林达华开发书生系列千亿级参数大模型。通过梳理这三名学者的研究成果,也向我们展示了中国的深度学习研究从起步、成长到进一步枝繁叶茂的过程。

现在,人工智能已经成为国家发展重点战略,今年的CVPR最佳论文更是由全中国学者所完成的。这不仅仅是一批人的成就,更展现了一代代中国人工智能学者薪火相传、勇攀高峰的过程。