芯东西(公众号:aichip001)
编辑 |  GACS 2024

2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在7日的主会场边缘/端侧AI芯片专场上,云天励飞副总裁、芯片业务线总经理李爱军以《面向大模型的国产工艺边缘AI芯片架构创新与展望》为题发表演讲。

随着大模型推动物理世界的智能化演进,更多的应用将在边缘侧完成。大模型使边缘AI场景面临新的算力挑战算力需求大、带宽要求高、计算扩展性强。李爱军谈道,国产工艺边缘AI芯片要应对挑战,架构创新是关键

面向大模型所带来的新的边缘AI计算场景,云天励飞研发国内首颗基于国产工艺Chiplet系列化边缘AI芯片,采用“算力积木”的理念,设计了D2D Chiplet/C2C Mesh大模型推理架构,从芯片设计、制程工艺、基板选择到封装测试均用国产技术,算力覆盖8TOPS~256TOPS,满足大模型落地的个性化需求,可应用于各类边缘场景,并且工具链与软件栈统一,算法的部署落地更便捷。

他预告说,云天励飞后续将发布基于国产工艺的大模型边缘推理一体机,提供更有性价比的边缘算力。

以下是李爱军演讲内容的完整整理:

云天励飞李爱军:详解“算力积木”架构,探路国产工艺边缘AI芯片丨GACS 2024▲云天励飞副总裁、芯片业务线总经理李爱军

一、大模型边缘落地离不开芯片,打造三大产品技术平台

李爱军介绍道,云天励飞创业10年一直坚持在边缘AI这个场景。今年,大家非常清楚处于大模型应用落地元年,我们看到的现状是大模型应用落地。海量的场景一定是在边缘,而边缘一定离不开芯片,离不开芯片其实有一个绕不开的话题就是国产工艺。如何在当前国产工艺的条件下做出能够满足大模型边缘落地的AI芯片?这是我们不可回避的话题。今天我就给大家带来云天励飞基于这一命题下的一些实践和探索。我会从以下四个方面阐述。

云天励飞自创业以来深耕边缘AI,围绕着边缘AI,打造了三个产品技术的平台。

第一个产品技术平台是应用落地驱动的算法平台。通过这个平台我们实现了覆盖14个领域、超过102个种类,300多个适合边缘AI行业落地的算法,这样的平台还支持端云协同,支持算法在细分场景下的快速训练微调和快速部署,我们在这个平台上也打造了云天自己的天书”多模态大模型。这个大模型在今年3月28日产品发布会上已经正式对外发布了。

第二个平台是算法驱动的神经网络处理器平台。在这个平台上实现高效推理指令级设计,同时完成了四代神经网络处理器的迭代。也是因为这么高频的迭代,所以我们可以高效地支持包括卷积神经网络,包括DV神经网络,以及新一代的Transformer计算方式。在这个基础上,我们可以高效支持包括视觉大模型、多模态大模型和大语言模型这类在边缘高效推理。

第三个平台是面向边缘计算场景芯片平台。基于这个平台,我们实现三代商用边缘AI芯片的迭代,同时算力覆盖从2T到256T的规模。我们在这样一个平台上,也完成了基于国产工艺的D2DChiplet先进封装技术,我们可能是国内第一个能达成商用量产阶段的芯片和平台。同时在这个基础上,我们还实现了C2C Mesh高效互联技术开发。

李爱军提到,基于上面的三大平台,我们从边缘AI底层的算法,以及AI处理器和芯片技术的不断迭代和创新,支撑了过去10年来云天励飞推出一系列面向边缘AI的产品。基于这些边缘AI产品,我们也一步步去探索面向边缘AI行业应用的各种场景。通过这些场景的探索,我们反过来又可以反哺算法和处理器、芯片的迭代,下一代包括算法,以及处理器和芯片下一代的迭代开发。

二、大模型向物理世界演进,垂类大模型解应用场景难题

大模型在边缘落地具有哪些挑战呢?

首先回到过往AI1.0时代,在AI1.0的时代,边缘场景落地有两大痛点,第一个是场景众多。场景众多带来最大的问题是为了满足场景的需求,需要各种各样的长尾算法,而长尾算法生产效率出现了投入产出不成正比的情况。李爱军提到,过去10年以来,有很多算法创新公司,基本很难实现盈利,包括我们在内。

另外一个痛点,用于边缘AI场景的芯片和算力五花八门,带来的问题是什么?边缘产品极度碎片化,我们很难有哪一个场景下的哪一个芯片年用量突破10万片,甚至是5万片。在这样的情况下,是很难有做芯片的规模效应,或者是边缘场景落地的规模效应。

大模型出现以后,我们看到了在边缘AI场景大规模落地,我们觉得有了这个可能性。在过去一年半内,我们看到整个大模型算法在快速向物理世界演进。从2022年11月份ChatGPT发布标志着语言大模型突破;到2023年3月份,Stable Diffusion发布,标志着图像大模型的突破;再到2024年2月份,Sora大模型出现,进一步开始理解物理世界;一直到今年5月份,空间计算率先提出,同时基于空间智能的大模型也开始出现,大模型在进一步理解三维的物理世界。

另外一方面,去年大家在拼基础大模型,到现在大家开始往行业走,开始真正把大模型往应用落地方向推。出现了各种各样的垂类大模型,开始真正去解决应用场景的问题。而大模型的落地正在快速从云端往边缘端发展,现在大家提得最多的就是大模型边缘节点怎么去构筑。

三、大模型落地边缘AI芯片迎挑战,提出“算力积木”新架构解题

大模型落地对我们的边缘AI芯片带来了新的挑战。边缘应用场景本身有刚性需求,这个需求里面有系统自动化的要求,有人机交互的要求,包括更方便、更便利控制和维护的要求,以及隐私保护的要求。大模型又带来了新的计算范式,以及大参数量、大吞吐、大算力要求。这两者结合以后,对我们面向大模型边缘AI的落地提出了全新的芯片要求。包括对于新的计算范式,要具有高的内存带宽,以及高的内存容量。同时,算力要具有很强的扩展性。为什么?因为我们看到在边缘大模型落地,参数有1.8B、1.4B、2.4B,还有3B、4B、7B、8B一直到13B等一系列。你如何能够提供出一个弹性的架构,可以使得各种各样的大模型在落地的时候能保证大模型高推理实时性要求,同时还要保证高性价比。这其实是对边缘AI芯片提出很高的挑战,同时还要具备高能效、高实时性、高性价比等一系列的特性。

据李爱军介绍,云天励飞基于国产工艺提出了“算力积木”这样的架构创新来应对这样的挑战。我们再回顾一下国产工艺。我们看到的是国产工艺在相当长的一段时间内可能比国际工艺都要落后两到三代。我们如何在相对落后的国产工艺上又实现满足大模型落地需要的高性能、高性价比的边缘AI芯片的突破呢?我们觉得只有在架构上进行创新才是唯一的出路。

云天励飞基于国产工艺提出的“算力积木”架构,是一个基于国产工艺的D2D Chiplet和C2C Mesh的大模型推理架构。我们首先实现了一个标准化的大模型的计算单元,这个计算单元可以实现1.8B大模型的实时高效推理;在这个基础上,通过D2D Chiplet艺术,可以实现7B大模型的高效推理;在此基础上,利用C2C Mesh技术,实现了14B的,140亿参数高效推理;进一步通过Mesh Torus架构可以实现高达1000亿以上模型在边缘端的推理。这样的架构可以满足边缘算力在保证实时性的情况下,可以实现大模型对于算力的扩展性,以及灵活性的要求。

四、坚持走国产工艺路线,将推大模型边缘架构推理机

李爱军说,为了实现这样的方面,我们做了很多技术上的创新。我们在标准化算力单元上面进行了以下三个创新,实现大模型高效推理。

首先,我们设计了近存计算,通过近存计算可以实现Transformer这种计算的超低延时。通过可编程路由引擎,我们可以实现高效分布式的并行计算,同时通过多路由协同机制。可以有效地提高大模型的参数数据响应速度,从而满足高效推理的需要。

我们在Mesh Torus上面,通过自适应路由机制,能够实现减少数据搬运次数;通过减少数据搬运次数,可以有效地降低带宽的需求;通过Torus结构,可以有效地降低多跳带来时延的影响,从而可以提升推理速度。我们现在可以实现8×16个标准“算力积木”单元的Mesh Torus架构互联,可以提供2048Tops统一管理智能算力。同时,我们可以实现统一的内存管理寻址,容量可以达到512GB。大家知道现在大模型最大的就是参数量。如果没有大内存,你想做到很好的推理是难的。我们还可以实现可统一调度的内存带宽,高达3840GB/s的带宽。

基于这样的一些架构上的创新,我们也推出了国内首个基于国产工艺Chiplet边缘化的AI芯片。这个芯片是全国产化的设计,从设计到工艺到封装等。同时也是系列化芯片,算力从8T到256T范围,可以满足边缘场景各类大模型落地算力的需要。这个芯片还是主控级SoC芯片,一颗芯片就可以满足这个场景单芯片设备的需要,不需要再加其他的芯片,集成了第四代的处理器。虽然芯片是系列化的,但是我们工具链是统一的,而且是统一的软件栈,这样方便软件的开发和应用。

目前Edge10国产化芯片平台已经支持了主流大模型,包括Transformer模型、BEV模型、CV大模型和各类主流的大语言模型,还有多模态大模型。我们在单个“算力积木”单元,就是单芯片上,可以实现1.8B模型14.5/s token的性能。在Chiplet芯片上,可以实现1.8B模型,达到55/s token的推理性能。如果是7B模型,可以实现30/s token的性能。如果是用Edge10做的Mesh Torus的一体机,对70B模型可以有高达60/s token的推理。

Edge10芯片现在已经在边缘AI各类场景下实现商业化落地。

我们展望边缘AI大模型芯片的发展,无论是Gartner的预测,还是ABI的研究,包括IDC的预计,大家的判断都是一致的。未来大部分的场景数据都将在数据中心之外产生,数据中心之外就是在边缘端产生。我们认为在大模型和海量数据的驱动下,边缘AI芯片未来一定会在可见的未来迎来大爆发。边缘AI芯片大爆发最核心的就是大模型边缘推理,它需要具备的,包括大算力、高能效、低延时、可扩展。特别是国产化,在当前的国际形势下特别重要。

未来,云天励飞将会推出基于Mesh Torus架构的大模型边缘推理一体机。以高峰值算力与突出的能效比支持大模型的单机部署,包括7B、70B、MoE等主流大模型的边缘侧推理部署。

李爱军补充道,我们坚持走国产工艺这个路线。通过架构创新的方式,能够在相对落后的国产工艺上进行性能突破,我们相比现在主流的用于大模型推理的一体机,我们可以做到更高的性能、更高的性价比。即使用国产工艺,我相信我们也可以给大家带来更高性价比的产品。