顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西10月17日报道,本周末,2022秋季NVIDIA DPU中国黑客松竞赛就要举办了。

这是一场让开发者有机会深入了解NVIDIA BlueField DPU和NVIDIA DOCA软件框架的技术盛会。参赛者可以构建创新的加速应用程序,实现NVIDIA BlueField DPU在人工智能、网络、存储和安全方面的独特功能。

参与活动的团队和开发者不但可以学习到相关的知识和技能,体验和使用到最全最新的DOCA功能,还可以构建以DPU技术应用为核心的人际网络,并与NVIDIA(英伟达)专家进行交流,有助于将创新想法变成现实。

与上一届相比,2022秋季NVIDIA DPU中国黑客松以RDMA技术为核心题目,基于InfiniBand网络来实现对存储和人工智能应用的加速,同时将这种低延迟、高性能的IO能力聚焦到金融的高频交易等一些行业应用场景中。

值此之际,围绕即将举办的NVIDIA DPU中国黑客松竞赛以及NVIDIA与VMware的合作等话题,芯东西等媒体与多位NVIDIA技术专家进行交流。

一、10229点竞赛开始,24日公布结果

DPU被NVIDIA视作与CPU、DPU并列的数据中心三大算力支柱之一,用以从基础设施的角度做卸载、隔离和加速,从而更好地释放CPU资源,提升数据中心基础设施性能。

2022年秋季NVIDIA DPU中国黑客松竞赛将于10月22日至23日举行,并在赛前训练营期间向开发者介绍NVIDIA BlueField DPU、NVIDIA DOCA软件框架的最新进展和基础开发的知识、与竞赛有关的用例和应用场景的介绍。

赛前训练营将在本周三(10月19日)举行,上午将有关于NVIDIA BlueField DPU和NVIDIA  DOCA软件开发套件的介绍和用例的展示,下午将更深入地介绍开发环境和开发方式,通过展示几个应用案例,让开发者更易理解DOCA的开发过程、具体步骤、用例及运行方式。最后还会有一个跟开发者的技术答疑环节。

不同于上一届,本届竞赛聚焦了一个题目——需要开发者使用NVIDIA BlueField DPU和NVIDIA  DOCA软件框架实现一个RDMA加速的存储与AI解决方案。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

这是基于InfiniBand上实现的RDMA技术,能够很容易地通过BlueField DPU去访问CPU和GPU的内存,不需要CPU和操作系统的干预。这会大大提高整个数据移动的效率,能够更好支撑未来的科学计算、人工智能、机器学习等需要大规模数据搬运和计算的工作负载。

和上一届的安排一样,今年的竞赛仍然会有一个欢迎、启动活动,然后进入到24小时的竞赛环节,各团队将投入到创新应用的开发之中。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

第二天10月23日上午是每个团队现场比赛的演示,他们将对自己做的课题做一个整体展示,将由5位中国评委和2位国际评委分别对他们的比赛结果进行评分,竞赛结果将于24日周一公布。

中国评委将从基础架构、软件开发、行业应用等角度来看待开发团队所做的项目和呈现的结果。国际评委将从创新角度及其他应用的角度做评分,包括训练营参与度、项目完成度、项目创新价值、题目匹配度、现场演示效果。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

没有参赛的开发者,也可以通过NVIDIA授权的合作伙伴DPU和DOCA卓越中心提供的免费开发环境,进行试用和演练。

二、当前数据中心面临的四大挑战

据NVIDIA技术专家分享,从NVIDIA的角度,当前数据中心面临的挑战体现在4个方面:

1、人工智能、科学计算、应用复杂工作负载,使得现代应用程序持续产生和处理大量的数据,这对数据中心的性能和数据处理能力提出了巨大的挑战。

2、过去一个程序是以单一方式在数据中心服务器当中运行,现在很多应用程序变成了以分布式微服务的方式向客户提供相应的服务,因此其部署并不是运行在数据中心中的某一台服务器,而是会运行在多台服务器上,甚至分布在不同的物理位置的微服务给客户提供应用。对分布式应用程序的需求不断增加,对数据中心、网络边缘及多云基础设施运营带来较大的挑战。

3、CPU受摩尔定律发展的限制,由于CPU要管理基础设施相关服务和操作,所以基础设施服务会消耗CPU的内核和相应的资源。本来CPU应该拿更多的资源服务于客户的应用,但由于基础设施消耗有一部分CPU要忙于基础设施的操作。

4、东西向流量不断增加,安全攻击面成为威胁。东西向流量,主要是很多应用程序会由分布在数据中心甚至不同物理位置上的微服务程序提供,它们之间会产生相应的数据流的数据交互。相互之间的流量增多,就会导致存在跨服务器或者数据中心内部的横向攻击和一些威胁,甚至有的客户会把一个网络上的应用程序下载到数据中心里应用,这些都会将潜在的安全风险带入数据中心。如果安全策略或者安全方式模型不能有效的抵御这种攻击,将造成比较大的威胁和相应的损失。

这四大挑战,也是NVIDIA与VMware两年多以来紧密合作的初始原因。双方希望将NVIDIA的BlueField DPU与VMware的软件架构相结合,重新构想虚拟基础设施。

三、DPUVMware架构之间是怎样配合的?

在VMware Explore大会上,NVIDIA、VMware和戴尔联合发布Project Monterey平台,该平台利用NVIDIA BlueField DPU,可实现如下三大方面的功能:

1、简化基础设施和工作负载管理;2、提高基础设施运行效率,主要体现在性能和功能增强上;3、借助零信任安全模式加强基础设施安全性。

Project  Monterey将vSphere 8企业工作负载平台与BlueField DPU结合,在戴尔Power Edge服务器或VxRail超融合架构一体机上做运行,能够有效地将BlueField DPU、GPU和NVIDIA Enterprise  AI软件针对vSphere 8做负载优化,并在运行AI软件时可将vSphere 8的一些功能卸载、加速和隔离到BlueField DPU。

Project  Monterey为未来的AI和现代应用程序工作负载重新构建一个现代的数据中心。它既包括用于GPU的vSphere 8上的新功能来支持更强大的AI模型、更快的训练速度,同时也简化云和边缘环境上的管理。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

VMware vSphere 8有一个Cloud  Foundation云基础架构组件,该组件与BlueField DPU结合,支持不同应用在系统平台上跑。

如图是VMware Hypervisor的整个虚拟化管理软件系统,相当于把vSphere中NSX的服务、网络跟安全相关的服务、vSAN存储服务、主机管理服务等原需CPU干预介入的基础设施的操作,卸载到BlueField DPU之上。

由于BlueField DPU的介入会在主机CPU和DPU之间形成一个隔离层,来保障主机内部的安全性。如果有主机上层被应用程序进行黑客攻击,它不会通过隔离层、通过DPU攻击到其他的服务器。所以,它会对多租户、多虚机环境有很有效的帮助。后续这将在Linux系统或者Windows系统的裸金属服务器上得到进一步开发。

该项目还在进行之中,当前只是将vSphere里面Cloud Foundation的功能卸载到了BlueField DPU,BlueField DPU也支持VMware NSX下一代防火墙技术,还有一些安全策略、数据存储功能将在日后的版本中得到支持。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

上图展示了BlueField DPU在vSphere体系中起到的主要卸载作用。在传统服务器中,整个基础设施管理、软件定义的安全、软件定义的存储、软件定义的网络都是由CPU承担工作负载的,CPU需分出相应计算资源放到基础设施的操作上,因而其在虚拟机和容器支持的数量和能力上就会受到一定性能上的限制。

当采用了BlueField  DPU之后,CPU可以零介入基础设施的部分,将上述四大功能卸载到DPU。这里主要和vSphere配合的有软件定义的安全、软件定义的网络和整体性能加速的部分,将给上层应用提供更好的基础设施的支撑。CPU资源则有更多支持虚机和容器的能力,得以更好地支撑客户业务应用。

除了支持vSphere8之外,NVIDIA DPU也在NSX网络和安全的组件上有很好的支撑,现已实现了NSX下一代防火墙功能,已经卸载到了DPU之上,后续的入侵检测、入侵防御等安全策略功能也会逐渐在DPU上实现。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

这将和VMware整个多云架构、企业应用有更加紧密的解决方案,能够让企业用户直接采用,享受BlueField DPU带来的性能上的回报。

在网络基准测试方面,采用DPU和不采用DPU的情况下,收益及效果会产生差异。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

例如,在VMware体系上运行NGINX Web服务器的应用,如果传统用标准智能网卡和CPU介入,需要有8个CPU内核管理跟运营基础设施的相关操作。采用DPU后,这8个内核完全被释放了,不需要CPU的任何介入,DPU就能将这些基础设施管理相关的加速能力体现出来。

再比如,在BlueField和VMware体系上跑Redis内存键值存储,是非SQL数据库的基准测试,如果用CPU和标准智能网卡跑应用,需要12个CPU内核介入。采用DPU后,这12个内核完全被释放,直接由DPU承担这些工作负载。

顶尖DPU开发实力PK!英伟达DPU黑客松竞赛来了,还能免费上手最新DOCA

从吞吐量的角度,原来是8.8,采用DPU后性能得到加速,会变成12,整体有12个内核的减少,相当于减少CPU 20%的内核释放,在不使用任何CPU资源的情况下性能将提升36%,对客户既节省了CPU上的资源消耗,又可以拿更多CPU资源支撑业务应用,同时整个网络性能也得到了提升。

结语:用的越多,省的越多

总体来说,对于企业用户而言,它们虽然需在DPU采购上做一定投入,但实际将在CPU资源占用和性能提升上将带来长期稳定的回报,最终实现“用的越多,省的越多”的效果。

据NVIDIA技术专家分享,通过在BlueFieldDPU上运行vSphere来,节省主机CPU内核,等同于节省了22%的主机CPU内核消耗,使服务器性能效率得到有效提升,可将释放出来的CPU内核来运行应用程序,并在三年的声明周期中提供5倍的投资回报。

780台安装有BlueField DPU的服务器,相当于1000台安装有标准智能网卡+CPU的服务器,每台服务器的TCO可节省8200亿美元,3年内通过提升效率可节省180万美元。

目前,NVIDIA正在中国市场推广VMware vSphere 8与BlueField DPU的体验。感兴趣的开发者可以通过NVIDIA LaunchPad申请试用在BlueField DPU上运行vSphere 8。