燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020

芯东西(ID:aichip001)
编辑 |  信仪

GTIC 2020全球AI芯片创新峰会刚刚在北京圆满收官!在这场全天座无虚席、全网直播观看人数逾150万次的高规格AI芯片产业峰会上,19位产学界重磅嘉宾从不同维度分享了对中国AI芯片自主创新和应用落地的观察与预判。

在峰会上午场,燧原科技创始人兼COO张亚林通过视频的方式,发表了题为《软硬系统协同——云端AI芯片产品化关键》的主题演讲。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲燧原科技创始人兼COO张亚林通过视频的方式发表演讲

目前,燧原科技的云端AI芯片生态已经覆盖“邃思”通用人工智能训练芯片、“云燧T10”人工智能加速卡、GCU-LARE智能互联技术以及“驭算”计算及编程平台。

在GTIC AI芯片创新峰会上,张亚林与我们分享了燧原科技对云端AI芯片产品化的看法,在他看来,AI系统要落地数据中心必须具备四个要素,分别为系统集群、板卡、高性能高算力的芯片,以及全栈的软件。而衡量一个数据中心的AI系统需要从完备性、生产率、成本、功耗和性能五个维度来考量。

以下为张亚林演讲实录整理:

一、数据中心趋于整合,计算和图形加速架构分离

首先,张亚林通过案例和数据向观众解读了一个问题:2020年数据中心到底发生了什么?

在2019年,中国的数据中心行业规模已经占到全世界的30%,2019~2021年全球云计算市场规模一直在爬升,到2021年将达到2890亿美金的市场规模。

NVIDIA在第二季度公布的财报表明,这是有史以来第一次NVIDIA的数据中心业务超过了显卡业务,共达到17.5亿美金的营收,与去年同期相比增长了167%。

张亚林说,数据中心正在朝着整合的方向走,世界上的三大巨头:Intel、NVIDIA、AMD都在通过并购加强自身在数据中心的布局。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲Intel、NVIDIA、AMD通过并购加强数据中心布局

Intel基于自己的CPU、数据和互联的业务收购了Altera后,在去年又收购了Habana来做Intel自身的加速卡业务。

NVIDIA的加速卡计算业务很强,去年收购了Mellanox以丰富其数据卡和互联的业务,目前NVIDIA还正在积极布局收购Arm以增强NVIDIA自身的CPU业务。

AMD本身具有CPU和加速卡业务,目前也开始收购赛灵思,以布局数据和互联方面的业务。

张亚林讲到,如果所有的收购完成,今年在数据中心方面就会出现Intel、NVIDIA、AMD三强争霸的局面,由此看来,计算范式正在朝着数据中心系统化、整合化的方向进行变革。

张亚林接着分析了数据中心产品正在发生的变化

先从NVIDIA讲起,NVIDIA推出了整个系统化的集群——SuperPOD,SuperPOD的整个元素是由DGX系统构成的,而在DGX中装入的是NVIDIA A100的板卡和芯片,完全遵循了自顶向下的设计原则,并以Turnkey(一站式方案)的方式进行SuperPod整个系统的推广。

再来看AMD,AMD正在加速计算和图形结构的分离。从AMD发布MI100时的一张示意图来看,下图中灰色的部分表示其传统的GPU结构正在被抛弃,取而代之的是基于计算加速和优化的产品线和基于游戏加速和优化的产品线,在AMD的产品线中,它们分别被命名为RDNA GAMING-OPTIMIZED和CDNA COMPUTE-OPTIMIZED。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲AMD发布MI100时的示意图

同时,计算和图形的加速分离也导致了NVIDIA和AMD在两条线上进行布局。

在计算卡部分,NVIDIA Tesla系列一直是NVIDIA计算卡的主打,其中包括了有名的Tesla V100、A100和Tesla T4。同时AMD积极布局其Instinct MI系列,并在不久前推出了MI100。计算卡的部分衍生出来就是数据中心的业务。

在图形卡部分,NVIDIA有其NVIDIA RTX系列,AMD拥有其AMD RX系列,这些部分衍生出来就是游戏业务。

因此NVIDIA和AMD两大巨头通过对计算卡和图形卡的分离,已经形成了完全不同的产品线和架构。

二、数据中心AI系统“全垒打”和“全维度”

数据中心AI系统“全垒打”是什么样的?

张亚林说,AI大系统要落地数据中心,必须具备四个要素,分别为系统、板卡、高性能高算力的芯片,以及全栈的软件系统。这四大要素构成了整个AI系统的“全垒打”。

而对于衡量一个数据中心AI系统真正能被市场化、产业化、规模化的标准,张亚林分了五个维度来解读,这五个维度分别为AI系统的完备性、生产率、成本、功耗和性能。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲数据中心AI系统的“全维度”

从完备性角度来讲,厂商必须具备很好的软件框架覆盖率、模型的覆盖率,还能满足用户的可定制化要求。

在生产率角度,厂商必须能从用户的角度出发,适应用户的开发效率、易用性、灵活性、可编程性和可迁移性。

在成本方面,有整个芯片的成本、板卡的成本、服务器的成本,还有迁移成本。

在功耗方面,整个芯片架构、存储类型、通信方式、软件实现以及利用率还有工艺都左右了功耗大小,也直接影响了后续的运维成本。

在性能方面,算力、延迟、精度、训练时间、推理时间、线性度(多卡)都对性能维度有影响。

因此,通常一个AI系统的“全维度”设计必须在五个维度之间平衡,再去迭代,保证能够找到这五个纬度在用户侧最好的差异化以及最优解,才能让整个产品更有亮点。

接着,张亚林特别就数据中心AI软件栈的“全维度”做了解构,他说,一个合格的、能商业化的、能让用户开发,且具有很强迁移度的软件栈,应该在应用层、框架层、SDK层和驱动层这四个层面进行布局。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲数据中心AI软件栈的“全维度”

自顶向下来看,从应用层的角度来讲,它必须具备很强的模型库,在模型库的丰富程度方面,燧原科技已经拥有了100多个模型。此外,在Benchmark方面必须有很强的基准测试能力,提供很强的基准测试标准,才能让用户在基准模式上的适用度更强。

接下来是框架层,目前业内通用的是TensorFlow、PyTorch两个主流框架,以及通过ONNX往下接入的部分,还有在非框架部分的推断引擎、推理引擎都是非常重要的框架性元素。

在框架层之下是整个全栈的SDK,也就是用户开发包,包括整个图形分解的引擎、图优化的引擎以及整个算子库,还有能使整个算子开发的编程模型和工具链。

在SDK下面是驱动层,驱动层和整个硬件下的AI芯片进行衔接。

而要想合理设计一个数据中心的AI芯片,必须从计算、数据、存储、互联四个角度看问题。

从芯片计算的本身出发,算力大小及有效算力是燧原科技一直在追寻的终极目标。如何通过数据的传输、存储和吞吐量,为计算引擎合理地输入和输出,保证它的有效算力,也是燧原科技考虑的因素。

在存储方面,分布式的存储大小在平衡片内存储、片外存储,以及实现存储的高效移动都是非常重要的命题。

在互联方面,整个数据中心朝着集群化、系统化的方向发展,整个软件栈也在朝着分布式的方向发展,如何提升互联的效率、线性度和速度,以使整个大系统、大集群像一个虚拟化的计算池一样执行,也是一个很重要的命题。

除此之外,要达到芯片性价比和能效比的“最优点”,还需要具备四个“P”,分别为:完全可编程(Full Programmability)、全模式计算(All Pattern)、全精度计算(Entire Precision)、高并行度(High Parallelism)。

张亚林说,在计算、数据、存储、互联四个维度以及四个“P”两方面都做好平衡,才能满足芯片的高性价比和能效比。

燧原科技张亚林:解构数据中心AI系统“全垒打”和“全维度” | GTIC2020▲数据中心AI芯片的“全维度”

三、云端AI芯片的产品化挑战

张亚林说,整个AI大芯片大系统的产品化涉及到系统化、工程化、产品化、生态化四个方面。

首先,在系统化上,如何合理设计系统架构,能让AI大系统具备用户的普适度、具备各种模型和应用模式,能给用户带来更好的性价比、能效比效果,这是一个非常重要的课题。

同时,软硬件的联合设计使整个有效算力能被完全发挥出来,使底层的硬件能力能被充分释放,这是系统化另外的一个关键部分。

工程化往往是被忽略的,张亚林介绍说,AI芯片在流片回来后走完了芯片工程化的30%,另外70%的路要靠AI芯片的工程化、量产化,推动其朝着创新落地和定义交付两个方向走。

很多AI芯片用了很多的创新架构,而这些架构能不能真正实现客户价值,能不能进行商业化的落地,能不能减低客户的迁移成本,以及交付过程中对于客户的承诺、交互日期,自身的执行力,自身定义能够交付的标准和时间节点目标等,都是厂商需要去思考的问题。

在产品化方面,用户真正期待的是真正普惠易用的方式。所谓“普惠”就是整个AI算力的泛化,会带来AI算力的性价比。“易用”针对的就是客户的迁移成本以及使用的生产效率。

同时,AI系统必须为后期的运维做考虑,也就是说必须是稳定可靠的,这种稳定可靠在数据中心里要保持五年甚至更长时间,使得数据中心能够一直在稳定可靠的方式下进行运营。

最后,在生态化方面,好的生态必须要具备能让用户轻松开发的能力,需要把AI系统变成开发的利器。同时,它又能使用户真正预言未来的AI算法,能够不断精进和提高AI算法的性能和适用度,为世界带来更好的AI创新点。

因此,基于AI芯片产品化挑战,系统化、工程化、产品化、生态化四个方面构成了整个云端AI芯片产品化的难点和亮点。

张亚林说,一个公司要能够实现这样的系统化、工程化、产品化、生态化的能力,它就必须具备这四个方面设计的意识和团队,燧原科技通常把这四个方面称为云端AI软硬件系统协同最大的挑战和亮点,也是未来人工智能在云端芯片和系统发展中的必经之路。

张亚林在最后总结时表示,燧原科技一直秉承着“做大芯片,拼硬科技”的宗旨。燧原科技做云端的AI大芯片和复杂系统,是因为它难而不是因为它简单。只有难,才能为国家创造更好的价值,为AI带来更好的明天。

以上是张亚林演讲内容的完整整理。除张亚林外,在本届GTIC 2020 AI芯片创新峰会期间,清华大学微纳电子系尹首一教授,比特大陆地平线黑芝麻智能、壁仞科技、光子算数、知存科技、亿智电子、豪微科技等芯片企业,全球FPGA领先玩家赛灵思,Imagination、安谋中国等知名IP供应商,全球EDA巨头Cadence,以及北极光创投、中芯聚源等知名投资机构,分别分享了对AI芯片产业的观察与思考。如感兴趣更多嘉宾演讲的核心干货,欢迎关注芯东西后续推送内容。