中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型

智东西(公众号:zhidxcom)
文 | 心缘

7月10日,商汤科技宣布OpenMMLab升级为迄今最完备的计算机视觉算法体系和框架——“人工智能算法开放体系,涉及超过10种研究方向,开放超过100种算法、600种预训练模型。 

从2018年10月启动开源至今,OpenMMLab已经在Github累积收获16895个star,在中国开源AI技术梯队里遥遥领先于其他单个垂直领域的算法和框架。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲OpenMMLab人工智能算法开放体系

这家从实验室走出的AI明星独角兽,凭借浓厚学术基因与极强技术攻关能力,一边在各大国际AI竞赛及顶会狂收战绩,年拿下60余项世界第一、近2000项全球专利,另一边为5亿多台手机提供AI/AR技术支撑,并连同1000多个合作伙伴深入10多个行业的智能化升级。

本周商汤科技可谓是连放大招,除了升级人工智能算法开放体系外,7月7日,商汤正式启动上海新一代人工智能计算与赋能平台项目,将商汤的大规模AI算力、工业级AI算法、开放式AI服务集于一体。

上海市经济信息化委副主任张英在奠基仪式的致辞中称该项目是“上海版‘新基建’行动方案中重要任务”、“落实AI‘上海方案’的重要举措”。

平台建成后,算力将能同时接入850万路视频,同时满足四个超2000万级人口的超大规模城市使用。

通过与商汤科技联合创始人、香港中文大学信息工程系教授林达华深入交流,我们试图解读OpenMMLab升级背后,商汤科技的开源初心、技术底气和AI全栈能力。

一、两年磨砺,商汤OpenMMLab开源计划从萌芽到森林

商汤科技创始人、香港中文大学教授汤晓鸥曾提过一个“三滴水”创新理论:第一滴水是重视知识产权保护的优质创新环境,第二滴水是尊重人才、重视人才培养,第三滴水是实现学术的充分交流,以此让思想碰撞出新的火花。

近些年来,商汤科技显然是“AI+教育”最忠实的拥趸者,不仅聚集一百多位全球顶级AI研究人员,还着重发力AI人才培养,出版了初中版AI教材、高中版AI教材以及一系列AI实验课程。

在推进学术交流合作方面,2018年,商汤做了两件大事:一是与清华大学、麻省理工学院、上海交通大学等全球15所高校共同发起“全球高校人工智能学术联盟”,二是由香港中文大学-商汤科技联合实验室(MMLab)启动开源计划OpenMMLab。

OpenMMLab由林达华教授发起,部分实验室同学和商汤的研究员参与,奔着“开源、统一、可复现的目标,逐渐演化为整个商汤的人工智能算法开放体系,并与整个AI产学研界的开源体系产生连接,在国内AI开源项目社区活跃度名列前茅。(链接:http://openmmlab.org/)

开源,这股在信息技术发展史上熠熠生辉的创新力量,曾催生许多经典的软件作品。

在AI领域,开源同样是算法迭代与创新的主要驱动力,任何人能在源代码的基础上进行学习与修改,这种共享文化不仅有效降低AI研发的门槛,还将全球AI研究人员的智慧聚合在一起,从而持续推动AI社区乃至产业的繁荣。

在深度学习时代,成体系的、基本覆盖了CV主要领域的开源,商汤是第一个。”林达华说。

2010年前,OpenCV等传统CV和机器学习开源代码库,已在AI领域产生非常大的影响力。 

但在深度学习突飞猛进发展的几年间,深度学习在CV领域并没有形成像OpenCV那样的统一开源体系,谷歌、Facebook等很多科技巨头只在单个方向单点的算法层面进行开源。

能不能为深度学习CV领域的一些重要方向建立统一而开放的代码库,并不断将新的算法沉淀其中呢?一个想法在林达华心里生根发芽。

2018年10月,MMLab实验室开放初版MMCV计算机视觉基础库和第一代MMDetection物体检测工具箱,标志着整个OpenMMLab统一开源体系进化的开端。

到2019年11月,MMLab又陆续开放了多个开源算法工具箱,包括MMAction行为理解工具箱、MMSkeleton基于骨架的视频分析工具箱、MMFashion服饰分析工具箱、MMSR超分辨率工具箱等。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲OpenMMLab发展路径

经过两年的发展,OpenMMLab逐渐形成了完整的体系和组织架构,可提供开放的基础技术支持、接口标准和算法框架。

这些开放资源得到了越来越多AI研究人员的积极使用、贡献和回馈,对AI社区的发展产生了重要影响。Github上,OpenMMLab的累计star数(相当于点赞)达到16895个。

二、OpenMMLabAI产学研界的四大核心贡献

深度学习经过近几年的发展,在技术和工程上水平均趋于成熟,但这其中也蕴含着较高的开发代价、算力代价、数据代价。

而OpenMMLab很大程度上是解决算法设计的代价问题。林达华告诉我们,这一开源体系主要为整个AI产研界带来如下贡献。

首先,这样一个开放的体系,为整个AI产学研算法研发和创新提供了非常好的基础。

从一个简单的想法,到AI研发落地,其中过程非常复杂,既要开发算法,还要解决许多工程化问题,这往往需要付出大量的试错成本。

OpenMMLab提供了组织架构更加优秀、拥有大量高质量算法内容的代码库,与提供模型训练能力的PyTorch等深度学习框架协同互补。

对于有创新想法的研究人员,他只需聚焦于开发创新部分,其他部分则可依托开源代码库来实现,从而极大简化研究人员将想法付诸实现和落地的过程。

其次,OpenMMLab降低了算法复现难度。

在学术界,AI算法层出不穷的同时,也提高了研究人员对新算法、新模型复现的难度,严重影响AI研发的效率。

做科研需与许多算法进行比较,如果整个算法都要重新实现或者找别人来调,往往非常耗费时间精力,如今OpenMMLab开源体系提供了丰富的有代表性的算法,使得研究人员复现baselines并与之进行比较的时间和难度大大降低。

第三,降低算法/数据集供应商触达用户和研究人员的成本。

在产业界,算法、数据集供应商和应用客户之间,往往会因算法的不透明性,导致较高的沟通成本。

很多时候复现一个算法时,受训练过程中一些细节因素影响,实际准确率与论文所报告的准确率有明显差别,而找到这个差别再调到论文准确率的水平,又要花大量的时间。

商汤趟过各种坑后,将所有主流CV算法集合到OpenMMLab的代码库中,使得外部使用者不必再重复踩坑,从而解决算法落地过程产生的多样化版本问题,提升AI算法的应用和部署效率。

最后,AI研究人员可在此基础上进行充分的交流,形成一个非常活泼的开源生态,助推产业赋能。

在学术研究过程,商汤会从学术界、AI社区中学术同仁贡献的算法汲取养分,商汤内部很多算法也是基于OpenMMLab进行研发。商汤也将大量自研的新算法成果贡献到代码库中,分享给业界,加快商业落地的步伐。

同时,对于商汤自身而言,这种与学术界同仁互利共荣的方式,既加快商汤自身创新与加快落地进程,也提高商汤在AI生态的影响力。

例如某个大客户曾要求商汤团队在一两个月的时间内,交付60多个精度和工程化要求非常高的模型。原本这是一件难以想象的事情,但在OpenMMLab的支持以及商汤其他成体系的模型生产平台、训练平台的基础上,商汤仅投入十几个人,就能基本上以每天交付几个模型的速度去完成这个项目。

“随着我们开源步伐往前去走,其实越来越多的东西都在这个过程中沉淀。那么这种沉淀的速度,其实商汤是要比很多同行其他的企业要走得更快更远。”林达华说,这种整体上的速度优势,是商汤在算法生产与应用生产的速度及能力持续处于业界领先位置的一个根本优势。

三、全新发布7个工具箱,开放逾600个预训练模型

从今年年初,商汤开始将OpenMMLab提升至新的战略高度——确认为人工智能算法开放体系,并投入很大的资源和团队来推动这一开放体系的建设。

在7月10日的世界人工智能大会上,商汤科技正式宣布OpenMMLab战略升级,成为由商汤科技发起的“人工智能算法开放体系”。

这是商汤拥抱开源开放的又一标志性节点。

全新OpenMMLab人工智能算法开放体系涉及超过10种研究方向,覆盖超过100种算法和超过600个预训练模型,并全新发布7个算法工具箱,并在后续还将持续开源更多算法。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲OpenMMLab在2020年7月全新发布7个算法工具箱

其研究方向包括图像分类、检测、语义分割、动作识别、3D点云、图像超分辨率、图像修补、图像的编辑、人体关键点检测和跟踪等,这些是CV领域最主要且应用最广泛的方向。

OpenMMLab的愿景是让AI研究更易用、更高效,希望基于完整的软件栈,以多样化的内容和活动形式推动内容生态,并由此在公开市场连接开发商和客户。

首先,面向公开市场,连接(算法和数据集)供应商和客户(用户和研究人员),降低沟通成本,加速AI开发和部署。

其次,在内容生态方面,通过教程讲座、在线研讨会、网络服务、基准测试与竞赛等内容和活动形式,推动AI社区的内容生态。

最后,在软件栈方面,以MMCV计算机视觉基础库为统一底层架构,提供多种特定领域库和数据集,构建完整的软件栈,并提供高级API和低级模块支持,降低AI研发难度和门槛。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲OpenMMLab的三个愿景

据林达华教授介绍,商汤和联合实验室团队基于对CV主要方向的深入理解,设计出一个非常灵活简洁的统一架构,这是OpenMMLab开源体系的一个重要特点。

以此架构为基础,可以组建非常多样化的算法,有些是由商汤或联合实验室的同学设计实现,也有一些是其他研究机构和学校贡献的算法。很多已取得较大影响力的开源项目中,外部贡献的比例较高,也在持续上升。

例如MMDetection物体检测工具箱有100多位贡献者,其中大部分算法者来自AI社区,商汤真正全职投入的只有几人。

如今,OpenMMLab逐渐从单点单个方向的开源和单篇论文的开源走向日趋蓬勃的开源体系,成为底层训练框架、计算平台与科研、教学和算法生产的重要桥梁和纽带,极大加速AI科研和产业化的进程。

对于未来,林达华透露说商汤有一个长远的想法。其开放将从外到内,逐渐从内容生态、算法层面,会延伸到训练框架等更多基础层。商汤会随着工作进度陆续对外公布相关进展。

四、不止是OpenMMLab,商汤启动人工智能计算与赋能平台项目

OpenMMLab升级为人工智能算法开放体系,是商汤在开源算法方面迈出的重要一步,但商汤的AI能力范围远不止于此。

在我们系统复盘商汤的AI技术实力前,不妨先来思考一个问题:AI创新策源有哪些不可或缺的核心推动力?

商汤科技联合创始人、首席执行官徐立的答案是:“融合了海量数据处理引擎、异构计算能力调度系统、深度学习训练框架的人工智能计算平台。

就在7月7日,中国(上海)自由贸易试验区临港新片区2020年重点产业项目集中开工仪式在上海临港地区举办。

作为重点项目之一,商汤科技上海新一代人工智能计算与赋能平台项目正式启动。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲商汤科技上海新一代人工智能计算与赋能平台(效果图)

上海市经济信息化委副主任张英称,希望商汤“力争将本项目打造为上海AI‘新基建标杆。

该项目承载商汤的平台化战略,以商汤多年的科研和落地经验积累为基础,集大规模AI算力、工业级AI算法、开放式AI服务于一体的城市级AI计算平台

从底层基础硬件设施、平台基座、系统框架、算法工具链、解决方案到上层应用落地,商汤上海新一代人工智能计算与赋能平台架构体系已初步搭建完善。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型▲商汤上海新一代人工智能计算与赋能平台架构体系

针对不同客户的差异化需求,该平台提供“多层次的AI赋能”服务及“一站式AI+产业升级”服务能力,并持续提升原创AI算法模型批量生产的能力。

面向AI生态企业,该平台将依托商汤积累的AI算法和基础服务经验,结合客户在AI领域的技术能力差异,开放支撑产业链不同层次的AI服务,以满足AI生态企业的个性化需求。

面向传统行业头部企业,该平台提供从基础AI算力到AI操作系统以及丰富行业落地经验的完善、全栈AI能力支持。

建成之后,该平台的算力将足以同时接入850万路视频,同时满足4个超2000万级人口的超大规模城市使用;1天内可处理时长相当于23600的视频,等同于从旧石器时代晚期不间断录制到今天的长度

五、算力、算法、生态,商汤技术实力全瞻

商汤上海新一代人工智能计算与赋能平台的背后,是商汤科技自成立六年以来在AI算力、算法及服务方面的千锤百炼。

在算力层面,商汤从成立之初就开始自己搭建硬件计算平台,买了6000多块英伟达GPU来自建超算中心。

截至今日,商汤在全国拥有超过20个超级计算机集群,总算力超过200PFLOPS,训练超过3000种不同类型的算法模型。

在算法层面,OpenMMLab开源的每一个算法工具库,都经过商汤及其联合实验室长期的学术研究与工程实践的积累,迄今商汤已公开将近2000件全球专利。

十年以来最难的一届国际计算机视觉与模式识别顶会CVPR 2020上,商汤科技及联合实验室共有62篇论文入选,还拿下3项竞赛的冠军。

在落地方面,商汤已经赋能4.5亿台手机的人脸解锁,日均人脸解锁的解锁次数为300亿次。在酒店大堂,有20多万台人脸认证设备来自商汤,平均每天提供3亿人次刷脸入住服务。

面向自动驾驶,商汤智能车仓有逾30家全球合作伙伴,赋能300万辆车辆。北京大兴国际机场、首都机场T2航站楼,单安检通道过检效率从每小时180人提高到每小时260人。

服务于国土、水利、农林等逾12个行业的商汤智能遥感业务,影像存储数据量总面积相当于我国国土面积的52倍,影像解释范围超过40万平方公里,数据处理量超过4万Gbyte。

在脚踏实地深入产业的同时,商汤也仰望AI的星空,探索一些面向未来的前沿研究。

周航曾是中国顶尖《星际争霸II》选手、8次全国星际II比赛冠军,如今是一位商汤科技研究员,在他看来,在星际这个公认最难最复杂的游戏领域之一,AI还不足以与最顶级的人类选手叫板。

他们正在积极推进“AI+电竞”的研发工作,希望在电竞这样一个绝佳的决策场景,沉淀出最优的AI决策算法。

像周航这样拥有特殊背景的研究员,在商汤庞大的研究团队中并非个例。

据商汤科技副总裁、商汤研究院副院长闫俊杰介绍,在过去五年半,商汤积累了很多计算机视觉和深度学习相关的专业的人才,但每到新的无人区,到了技术攻坚的阶段,需要更多不同背景的人才交叉,才有望取得更大的进展和突破。

在这个阶段,商汤选择广纳来自不同学科、不同背景的多元混合应用型人才,扩大人才储备的深厚程度。当前,商汤的核心技术团队平均年龄28岁,包括近200名博士,全球员工总数突破4000人。

这些优质的人才力量,恰恰是商汤原创技术与创新能力得以生生不息的本源。

六、AI发展仍在初级阶段,CV创新还有广阔空间

第三次AI浪潮爆发以来,质疑声从未消散。但在徐立看来,我们不应对算法求全责备,而应更加包容地见证AI技术的成长。

AI技术正是在质疑中不断落地、迭代优化,每一次的技术试错都会带来增量价值。

以人脸识别为例,起初人们质疑人脸识别的准确率、双胞胎人脸识别如何解决等,随后人们又开始关注视频、3D人脸面具能否仿照人脸来解锁。在源源不断的质疑声中,地铁刷脸支付、戴口罩刷脸等更多城市级别的应用诞生。

中国AI开源再进击!商汤升级人工智能算法开放体系,开放超600种预训练模型

在日常生活中,除了有像人脸识别、行人识别这类关注度非常高的头部应用,还有些应用频次较低的、像图中恐龙尾巴的长尾应用。

徐立认为AI真正落地不仅要解决头部问题,还要解决长尾里的细小问题,长尾应用完善价值闭环

例如借助AI算法,可以将时间、地点、人、物串联,解决垃圾抛洒、粪车排放、单车违停等看似AI应用频次较低的日常城市治理问题,这些都属于长尾应用场景。

林达华也看到AI领域还有很多问题值得解决,比如能否探索新的学习方法和模型构造,减轻模型训练对数据和算力的重度依赖;能否提升AI模型的可解释性、安全性、可靠性,让我们能放心地在更多领域使用AI的能力;能否让软硬件在AI场景中联合进行创新,从而实现对AI能力更高效的部署。

此外,CV正与跟社会科学、艺术、管理学等诸多领域结合起来,发挥令人意想不到的价值。在这些领域的边界均有大量创新机会。NLPG亦提出许多有价值的想法,可供CV领域借鉴,这也是未来创新时可以去思考的方向。

在林达华看来,创新的本质是探索一些未知领域,去解决尚未得到很好解决的问题。

比如要将算法在很多不同芯片上去落地,通常需很多工程师来做,那么AI是不是能简化这些重复性工作?或者建一个运行过程复杂的大型AI平台,能否用AI帮运维工程师减轻工作量?又或者在国家投入大量人力物力的疫情防控方面,AI能否进一步加快工作效率?

林达华也提到,我们社会生活与产业的方方面面都存在挑战,虽然有些地方已用AI的方法进行探索,但在很多方面,AI仍处在非常初步的阶段甚至还没有进去,这是一个非常大的创新空间。

对此他给出建议,研究人员如想创新,一定要跳出原来以为AI只能适用的这些方面,到更广阔的空间寻求新的机遇、新的创新。

“如果只是盯着现有大家都在做的任务,创新的空间必然会越来越窄。”

但是除了这些小的点以外,还有很多广阔的空间,如果研究人员愿意让眼睛看到这些地方,创新还有无限可能。

结语:开源与原创,AI进化的活力之源

2020年,我们正处在百年未有之大变局。

在疫情“黑天鹅”和逆全球化风险的影响下,世界经济正发生颠覆性的改变,全球学术交流合作也正经受着一定冲击,而AI作为新一轮科技革命与产业变革的核心驱动力,正在国家倡导的“新基建”中承担起更大的责任。

如今AI已在金融、医疗、制造等许多传统行业展现出重构的潜能,但遗憾的是,当前AI发挥的能力还很有限,我国的AI基础研究仍不及美国,而要驱动AI技术成长,离不开原创与开源这两大关键动力。

技术原创是一家科技企业的立身之本,开源则能体现企业的技术自信与共荣心态。如今争夺AI高地已是世界各国的共识,以OpenMMLab为代表的中国AI开源力量,正为我国AI持续创新与发展输送源源不断的活水来。