黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

智东西(公众号:zhidxcom)
文 | 心缘

智东西12月18日苏州报道,又到了一年一度的NVIDIA GTC China大会,这次,NVIDIA创始人兼CEO黄仁勋将焦点放在四大主题:人工智能(AI)、汽车、游戏和HPC。

黄仁勋说,这是迄今为止最大规模的GTC China,与会人数达到6100,较三年前的2400人增加250%。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

黄仁勋宣布一系列NVIDIA新品及合作进展,核心内容如下:

1、百度、阿里使用NVIDIA AI平台做推荐系统;

2、推出第七代推理优化软件TensorRT 7,进一步优化实时会话式AI,T4 GPU上推理延迟是CPU的1/10;

3、NVIDIA AI推理平台在全世界范围内得到了广泛的应用;

4、推出软件定义的AV平台、新一代自动驾驶和机器人SoC Orin,算力达200TOPS,计划于2022年开始投产;

5、向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络,在NGC上推出NVIDIA DRIVE预训练模型;

6、滴滴将在数据中心使用NVIDIA GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力;

7、推出全新版本NVIDIA ISAAC软件开发套件SDK,为机器人提供更新AI感知和仿真功能;

8、宣布六款支持RTX技术的游戏;

9、腾讯与NVIDIA合作推出START云游戏服务,在中国将电脑游戏体验引入云端;

10、宣布全亚洲最大云渲染平台瑞云云渲染平台将配备NVIDIA RTX GPU,首批5000片RTX GPU将在2020年上线;

11、发布面向建筑行业(AEC)的Omniverse开放式3D设计协作平台;

12、面向基因组测序,黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。

一、AI:入驻百度阿里推荐系统,推出新一代TensorRT软件

自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU赢得ImageNet竞赛以来,NVIDIA在5年内将训练性能提升300倍。

借助Volta、新Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink和DGX系统组合,NVIDIA正助力更多AI研究。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

AI将从云扩展到边缘,NVIDIA正为以下每种用例分别打造一个平台:用于训练的DGX,用于超大规模云的HGX,用于边缘的EGX和用于自治系统的AGX。

1、百度、阿里推荐系统采用NVIDIA GPU

黄仁勋说,互联网一个最重要的机器学习模型是推荐系统模型。

没有推荐系统,人们就无法从上亿次网页检索、几十亿淘宝商品、几十亿抖音短视频、各种网络新闻、推文和照片中找到自己需要的内容。

深度学习可实现自动特征学习,支持非结构化内容数据,通过加速缩短延迟并提高吞吐率。

总体来看,做推荐系统面临两大挑战:海量数据带来的复杂模型处理任务,以及让用户立即看到推荐结果的实时性要求。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

针对这一问题,百度提出AI-Box解决方案来训练高级的大规模推荐系统。

百度AI-Box是Wide and Deep结构,采用NVIDIA AI平台,基于NVIDIA GPU训练TB级数据,速度比CPU更快的同时,训练成本仅有CPU1/10,且支持更大规模的模型训练。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

同样,阿里做的推荐系统也选用了NVIDIA AI平台。

今年“双十一”当日,阿里的销售额超过了380亿美元的商品,电商网站上共列出约20亿类商品,有5亿用户在购物,一天销售额达2684亿,每秒几十亿次推荐请求。

如果一位用户花1秒看1个产品,那么看完所有商品要花32年的时间。

对此,阿里使用NVIDIA T4 GPU来训练推荐系统,这使得每当用户点击一个商品,就会看到其他相关推荐商品。

原先使用CPU速度较慢,仅3QPS,而NVIDIA GPU将速度提升至780QPS

2、推出第七代推理优化软件TensorRT 

现场,黄仁勋宣布正式推出第七代推理优化编译器TensorRT 7,支持RNN、Transformer和CNN。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

TensorRT是NVIDIA针对神经网络推理阶段提供的加速软件,它能通过提供优化的AI模型来大幅提升性能。

去年在GTC China大会上发布的TensorRT 5仅支持CNN,只支持30种变换,而TensorRT 7面向TransformerRNN做了大量优化,能以更少内存实现高效运算,并支持1000多种计算变换和优化。

TensorRT 7能融合水平和垂直方向的运算,可为开发者设计的大量RNN配置自动生成代码,逐点融合LSTM单元,甚至可跨多个时间步长进行融合,并尽可能做自动低精度推理。

此外,NVIDIA在TensorRT 7中引入一个内核生成功能,用任何RNN可生成一个优化的内核。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

会话式AI是TensorRT 7强大功能的典型代表。

其功能非常复杂,比如一个用户用英文说了一句话,要把它翻译成中文,这个过程需要现将英文口语转化成文字,理解这段文字,然后转化成想要的语言,再通过语音合成将这段文字转化成语音。

一套端到端会话式AI的流程可能由二三十种模型组成,用到CNN、RNN、Transformer、自编码器、NLP等多种模型结构。

推理会话式AI,CPU的推理延迟是3秒,现在使用TensorRT 7在T4 GPU上推理仅0.3s就完成,比CPU快10倍。

3NVIDIA AI平台得到广泛的应用

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

另外,快手、美团等互联网公司也在用NVIDIA AI平台做深度推荐系统,以提高点击率,并降低延迟和提高吞吐量,更好理解和满足用户需求。

例如,美团用户想找一个餐厅或者是找酒店,都是通过用户的搜索来实现的。

会话式AI需要可编程性、丰富的软件推展及低GPU延迟。包含这些模型在内的NVIDIA AI平台将为智能云提供支持。

NVIDIA EGX是面向边缘AI应用打造的一体化AI云,专为流式AI应用程序、Kubernetes容器编排、保护动态数据和静态数据安全而打造,已连接到所有物联网云。

比如,沃尔玛使用它进行智能结账,美国邮政服务在EGX上通过计算机视觉分类邮件,爱立信将在EGX服务器上运行5G vRAN和AI物联网。

二、推出新一代汽车SoC,算力200TOPS

NVIDIA DRIVE是一个端到端AV自动驾驶平台,该平台由软件定义,而非固定功能的芯片,使得大量开发人员可按照持续集成、持续交付的开发方式进行协作。

黄仁勋表示,将在NGC容器注册上,向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络。

1、下一代自动驾驶处理器ORIN,算力是Xavier7

NVIDIA发布NVIDIA DRIVE AGX Orin,它是新一代自动驾驶和机器人处理器SoC,达到了ISO 26262 ASIL-D等系统安全标准,将包含一系列基于单一架构的配置,计划于2022年开始投产。

Orin凝聚着NVIDIA团队为期四年的努力,被用于处理多个高速传感器、感知环境、创建一个周围环境的模型并定义自己、根据特定目标制定合适的行动策略。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

它使用了包含8个核心的64位Arm Hercules CPU,有170亿个晶体管,再加上全新深度学习和计算机视觉加速器,其性能达到200TOPS,几乎比上一代的技术(Xavier)提升7倍。

它拥有易编程性,有丰富工具和软件库支持,还拥有全新功能安全特性,可使CPU和GPU锁步运行和提升容错性。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

Orin系列可从L2扩展到L5,与Xavier相兼容,可充分利用原有软件,因此开发者能够在一次性投资后使用跨多代的产品。

其新特性是提高针对OEM的低成本版本,即想用一个单路摄像机做L2级别的AV,同时能利用整个AV产品线中的软件栈。

除了芯片外,NVIDIA的平台、软件等很多技术可应用在汽车中,帮助客户定制化应用以进一步提升产品的性能。

2、推出NVIDIA DRIVE预训练模型

黄仁勋还宣布在NGC上推出NVIDIA DRIVE预训练模型。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

一个正常运行的安全自动驾驶技术需要许多AI模型组成,其算法具有多样性和冗余性。

NVIDIA开发了先进的感知模型,用于检测、分类、跟踪和轨迹预测,还可用于感知、本地化、规划和制图。

这些预训练模型均可从NGC上注册下载。

3、滴滴选用NVIDIA自动驾驶和云基础设施

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

滴滴出行将使用NVIDIA GPU和其他技术开发自动驾驶和云计算解决方案。

滴滴将在数据中心使用NVIDIA GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力。

今年8月,滴滴将其自动驾驶部门升级为独立公司,并与产业链合作伙伴开展广泛合作。

作为滴滴自动驾驶AI处理的一部分,NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境360度全方位的理解,并规划出安全的行驶路径。

为了训练更安全高效的深度神经网络,滴滴将采用NVIDIA GPU数据中心服务器。

滴滴云将采用新的vGPU许可证模式,旨在为用户提供体验更佳、应用场景更丰富、效率更高、更具创新性和灵活的GPU计算云服务。

4、发布NVIDIA ISAAC机器人SDK

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

面向机器人领域,黄仁勋宣布推出全新NVIDIA Isaac机器人SDK,大大加快开发和测试机器人的速度,使机器人能通过仿真获得由AI驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和验证,并节省成本。

Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网络模型、算法、库、驱动程序和API),用于室内物流的参考应用程序,并引入Isaac Sim训练机器人,可将所生成的软件部署到在现实世界中运行的真实机器人中。

其中,基于摄像头的感知深度神经网络有对象检测、自由空间分割、3D姿态估计、2D人体姿态估计等模型。

全新SDK的对象检测也已通过ResNet深度神经网络进行了更新,可以使用NVIDIA的迁移学习工具包对其进行训练,使添加新对象进行检测和训练新模型更加容易。

另外,该SDK提供了多机器人仿真,开发人员可将多个机器人放入仿真环境中进行测试,各个机器人可在共享的虚拟环境中移动时,运行独立版本的Isaac导航软件堆栈。

全新SDK还集成了对NVIDIA DeepStream软件的支持,开发人员可在支持机器人应用程序的边缘AI,部署DeepStream和NVIDIA GPU,以实现对视频流的处理。

已开发了自己代码的机器人开发人员,可将自己的软件堆栈连接到Isaac SDK,通过C API访问路由的Isaac功能,这样极大程度地减少编程语言转换。C-API访问权限同时支持开发人员在其他编程语言中使用Isaac SDK

据黄仁勋介绍,国内大学都采用Isaac来教授和研究机器人技术。

5NVIDIA的汽车生态圈

NVIDIA在汽车领域已深耕了超过10年,和合作伙伴做了很多的事情,让AI的大脑能更好的了解、甚至能够去“驾驶”车辆。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

经过不断模拟、测试、验证,确认系统奏效后,NVIDIA与合作伙伴才会将其真正应用于实际道路上。

无论是卡车公司、普通汽车公司还是出租车公司,均可使用这一平台针对具体车型来定制化自己的软件。

NVIDIA提供迁移学习工具,允许用户对模型进行在训练,并利用TensorRT进行再优化。

另外,NVIDIA还开发了联邦学习系统,它对看中数据隐私的行业都尤为受用。

无论是医院、实验室还是汽车公司,在开发训练神经网络后,可以只将训练处理后的结果上传到一些全球服务器中,同时将数据保留在本地,保证数据隐私。

三、游戏:与腾讯合作推出START云游戏服务

《我的世界》是全球最卖座的电子游戏,最近在中国已达到3亿注册用户,NVIDIA和微软共同宣布《我的世界》将支持实时光线追踪(RTX)技术。当前NVIDIA RTX技术已被多个业界最流行的渲染平台所支持。

现场,黄仁勋宣布了6款支持RTX的游戏:

(1)《暗影火炬》,由上海钛核网络开发;

(2)《Project X》(项目代号),由米哈游开发;

(3)《无限法则》,由腾讯北极光工作室群开发;

(4)《轩辕剑柒》,由大宇资讯开发;

(5)《铃兰计划》,由龙之力科技开发;

(6)《边境》,由柳叶刀科技开发。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

人们想要更轻便、轻薄的游戏笔记本,对此NVIDIA创造Max-Q设计,将超高GPU能和总体系统优化集于一身,使得功能强大的GPU可用于轻薄笔记本。

今年,中国游戏笔记本发货量超过500万台,五年内增加4倍,其中GeForce RTX Max-Q笔记本电脑是增速最快的游戏平台。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

此外,黄仁勋宣布腾讯与NVIDIA合作推出START云游戏服务,在中国将电脑游戏体验引入云端。

NVIDIA GPU将为腾讯START云游戏平台提供支持,腾讯计划扩展该平台供数百万玩家使用,为他们提供和本地游戏主机一致的游戏体验,即便使用性能不足的终端也无损体验。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

NVIDIA RTX平台包含40多个面向内容工作者打造的产品,涵盖从配备GeForce RTX 2060的Max-Q轻薄笔记本,到配备4路SLI Quadro RTX 8000的工作站和配备8路RTX 8000的服务器。

黄仁勋宣布,瑞云云渲染平台将配备NVIDIA RTX GPU,首批5000片RTX GPU将在2020年上线。

这是全亚洲最大的云渲染平台,渲染了2019年中国三大热门电影《战狼2》、《哪吒和《流浪地球》,超过85%的中国电影工作室都是瑞云的客户。

黄仁勋还发布了面向建筑行业(AEC)的Omniverse开放式3D设计协作平台,本地和云端均支持在AEC工作流中增加实时协作功能,将支持Autodest REVIT、Trimble SketchUP和McNeel Rhino等主流AEC应用。

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

现场展示了使用OMNIVERSE AEC的Demo,中国华润大厦由KPF建筑师事务所设计,在配备了8路RTX 8000的服务器上进行实时渲染。 

四、HPC:面向基因组测序推出CUDA加速的基因组分析工具包

NVIDIA在HPC方面的应用也很丰富。比如计划2030年将人类送上火星的NASA,在NVIDIA GPU上通过FUN3D流体力学软件运行了数十万次火星着陆场景模拟,生成150TB 的数据。

面向基因组测序,黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks

黄仁勋推新自动驾驶芯片!性能飙升7倍,牵手BAT滴滴大秀中国朋友圈

Parabricks可与用于发现变异,并能产生与行业标准GATK最佳实践流程一致的结果,可实现30-50倍的加速,并提供DeepVariant工具,利用深度学习技术进行基因变异检测。

黄仁勋说,很高兴宣布华大基因已采用Parabricks,通过借助若干GPU服务器,可按其测序仪生成数据的速率来处理基因组。

据他介绍,NVIDIA 今年为CUDA增加5G vRAN和基因组两个新主流应用,已得到爱立信和华大基因等行业领导者的支持。

另外,黄仁勋也再次提到此前已公布NVIDIA GPU和Arm的合作,现已支持用CUDA加速Arm服务器,并已公布基于Arm的首个参考架构NVIDIA HPC for ARM,可使用各种基于Arm的HPC服务器进行配置。

TensorFlow现已支持在Arm上加速,借助NVIDIA CUDA on ARM,TensorFlow可实现世界一流的性能和扩展能力。

结语

2019年已经接近尾声,NVIDIA也在本次大会上,不仅大秀AI、汽车、游戏和HPC能力,也晒出了多个领域的朋友圈。

黄仁勋说,随着摩尔定律的终结,GPU加速计算将成为未来的发展方向,这一点现已得到公认。

NVIDIA可实现单线程处理和并行多线程处理的加速,并通过整个软件堆栈进行优化,使得多GPU和多节点系统实现难以置信的性能。NVIDIA已售出15亿块GPU,每块GPU都兼容同一个架构CUDA。

作为迄今AI深度学习红利的最大受益者,NVIDIA以高性能的软硬件和系统为基础,持续丰富其AI和自动驾驶生态,而找到核心场景加速落地仍是当下的重头戏。