芯东西(公众号:aichip001)

芯东西9月19日报道,9月14日-15日,2023全球AI芯片峰会(GACS 2023)在深圳市南山区圆满举行。继首日开幕式及AI芯片创新专场火热开场(《云边端AI芯片热战大模型!2023全球AI芯片峰会首日干货》),峰会次日演讲继续输出密集干货满载,在上午场的最后一个环节,2023中国AI芯片先锋企业TOP30和2023中国AI芯片新锐企业TOP10评选结果正式公布。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲2023中国AI芯片先锋企业TOP30

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲2023中国AI芯片新锐企业TOP10

2023全球AI芯片峰会由智一科技旗下芯东西联合智猩猩发起主办,在南山区科技创新局的指导下以“AI大时代 逐鹿芯世界”为主题,设置七大板块,主会场包括开幕式和AI芯片架构创新、AI大算力芯片和高能效AI芯片三大专场;分会场包括首次增设的集成电路政策交流会、AI芯片分析师论坛、智算中心算力与网络高峰论坛。

在第二天的AI大算力芯片论坛、高能效AI芯片论坛上,上海交通大学计算机科学与工程系教授梁晓峣发表开场演讲,随后来自英特尔Habana、壁仞科技、千芯科技、Graphcore、中科加禾、芯和半导体、云天励飞、知存科技、诺磊科技、迈特芯、肇观电子、智芯科、原粒半导体、九天睿芯15家顶尖AI芯片企业及新锐企业的创始人、技术决策者及高管分别发表主题演讲,分享前沿研判与最新实践。

通过峰会次日的嘉宾分享和观点碰撞,我们看到大多数AI芯片企业都在积极备战生成式AI与大模型浪潮带来的时代机遇,嘉宾分享的议题焦点可以归纳为几个关键词:生成式AI、NVIDIA、GPGPU、落地挑战、架构创新、存算一体

无论是大算力AI芯片还是高能效AI芯片,都面临存储墙、功耗墙等共通的传统架构痼疾,也正分别从核心应用场景的迫切之需出发,通过广联生态伙伴、优化软硬协同,更大程度挖掘芯片性能的潜能,探索不依赖先进制程来实现性能提升、能效提升的新路径、新解法。

一、破解大模型落地挑战,大算力芯片亮出三项关键技术

大模型落地进程已经提速,但其与算力供应之间的差距目前没有被弥合,国产大算力芯片正在通过不同的技术路径发起冲锋,提高芯片能效比的同时加速大模型落地。

1、GPGPU加速大模型训练,用开源解决人、钱、时间难题

上海交通大学计算机科学与工程系教授梁晓峣谈道,大家在AI大时代淘金,卖铲子的NVIDIA“赚钱赚的最多”。他认为,包含CUDA Core和Tensor core(张量计算核心)的V100这代GPGPU,帮助NVIDIA奠定AI时代算力基座的行业地位。当谷歌、特斯拉等芯片公司拿出比NVIDIA更有效的矩阵计算方式后,NVIDIA为了巩固自己在人工智能时代的霸主地位,在数制、稀疏性、互联、内存带宽等方面进行了多项革新。此外,NVIDIA构建的涵盖编程语言、运行环境等完善的软件生态是让芯片好用的“护城河”。

芯片生态从软件厂商围绕核心芯片(架构)开发“领域专用软件”发展到芯片厂商围绕核心软件(框架)开发“领域专用芯片”,直到现在芯片厂商和大模型公司围绕核心应用开发“领域专用系统”。梁晓峣提到,当竞争对手领先时,可以用开源的方式解决资金、人才和时间的问题。开源也被证明是当对手特别强大时,较为有效的突围方式。

去年,梁晓峣团队推出自研开源GPGPU平台“青花瓷”,支持大规模并行通用计算。梁晓峣解释道,说的直接点就是除了游戏,希望NVIDIA的芯片能做的“青花瓷”都能做,同时还特别重视对NVIDIA GPGPU产品的兼容。他补充说,“青花瓷”平台完全免费开放,这一平台最主要目的是为行业提供GPGPU架构参考设计,开放给企业、高校进行基础研究、实践平台、突破创新。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲上海交通大学计算机科学与工程系教授梁晓峣

在产业界,壁仞科技也认同高性能GPGPU是训练GPT大模型的关键。一方面,大模型在计算机体系结构中面临计算、通信、存储、并行扩展、稳定可靠五大挑战;另一方面,还要解决用户视角下,存得下、易扩展、易使用三大“温饱”需求,以及高性能、低成本、低延时三大“小康”需求。

针对这些挑战和需求,壁仞科技打造了面向大模型的软硬一体全栈优化的解决方案,包括高性能集群、机器学习平台suCloud、加速库、训练框架和推理引擎、超大模型框架、算法/应用六层架构。壁仞科技系统架构副总裁丁云帆谈道,高性能通用GPU是训练GPT大模型的关键算力基础,互联带宽/拓扑是支撑GPT大模型分布式高效扩展的关键,基于自研BR104 GPU的主流量产产品壁励104,壁仞科技可构建千卡GPU集群,并结合大模型分布式策略优化助力大模型创新落地。另外壁仞科技还与产业界的框架、模型伙伴、科研机构、高校等紧密合作打造大模型产学研用生态。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲壁仞科技系统架构副总裁丁云帆

2、传统架构难突破带宽、成本瓶颈,大模型时代亟需超越GPU新架构

“大模型本质是对知识的压缩和对输入的反馈,即存算一体、以存代算。”千芯科技董事长陈巍谈道,“LLM/MLM的开源资源、部署训练架构、算力成本成为大模型应用落地和企业盈亏的关键分水岭。”

陈巍介绍了几种典型的商用大模型存算一体架构落地情况,并指出”特斯拉的Dojo芯片使用了近存计算架构优化数据通道,或是为大模型量身定制“,”微软三星等科技巨头正在投资存算一体芯片企业“。

Habana中国区负责人于明扬一上台便放话:演讲不掺广告,都是真实体验。“我们认为,每个Billion(十亿)的参数规模,在有限时间范围内要把训练做好,基本需要的算力大概在16卡。”

他谈到大模型给硬件层带来压力,对单卡的算力、内存、服务器互联方案、集群长时间稳定运行等提出更高要求。在大模型发展过程中,上层框架及软件生态扮演的角色越来越重要。传统模型很大程度需要CUDA的资源进行训练,但大模型时代更多强调高层框架软件生态——如何解决集群管理与稳定性、训练过程中的并行化要求等。

于明扬总结了面向大模型高效训练和推理的一些选择,包括计算速度、高速存储、高扩展性、易用性、高能效、高性价比。在大模型时代,企业如果能很好地针对框架做优化,有机会绕开CUDA生态墙,打破NVIDIA在市场上一家独大的局面

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲Habana中国区负责人于明扬

GPU、CPU之外,英国芯片公司Graphcore(拟未科技)提出了IPU架构,支持FP8浮点运算,基于此来应对对话式AI的时延、应用成本与能耗的挑战。早在2018年,AI教父Geoff Hinton就看到了IPU架构的潜力,他在接受采访时以Graphcore的IPU芯片为例,大力倡导为构建功能更像大脑的机器学习系统转向不同类型的计算机。

Graphcore中国区产品总负责人朱江提到,IPU采用了大规模并行的多指令多数据架构,并极大地扩展了片上SRAM的大小,使得片内存储吞吐量达到65TB/s。这样大规模的片上存储和分布式设计,可以极大地提高访存带宽和内存访问效率,有力地帮助客户打破内存墙的瓶颈。IPU的独特设计还使其实现了高效的访存能耗。同样是搬运一个byte的数据,CPU大概需要消耗320pJ,GPU大概需要64pJ,而IPU大概需要1pJ。此外,Graphcore推出的Bow IPU还采用了WoW的先进封装,并在支持数据类型上进行了投入,成为业内最早支持FP8精度的硬件之一。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲Graphcore中国区产品总负责人朱江

3、产业链创新:编译器+EDA平台,提高AI芯片适配性

大模型应用与算力之间的差距,加速了企业在两者间构建“桥梁”,缩小其中差距的步伐。

中科加禾创始人崔慧敏认为,大模型让国产AI芯片面临的生态困境更加凸显,编译器成为一大破解之道。简单来说,编译器是用于将机器语言翻译为人类语言的工具,在AI芯片产业链中,相当于AI芯片与AI用户之间的“桥梁”。

在GPU时代,编译器大家主要使用的是NVIDIA的CUDA编译器。随着AI时代到来,编译器的内涵和外延进一步扩大,涉及了图、张量、指令、图算融合等不同层面的编译。

大模型时代,编译器能够促进芯片性能提升、跨平台优化及安全性增强。崔慧敏谈道,在性能方面,编译技术可以发掘更激进的融合策略,进一步全局对计算、同步进行重排优化,为模型推理侧带来最高2~3倍的性能提升;在跨平台方面,中科加禾认为基于机器模型可以有效支撑编译优化的跨平台表现;在安全方面,编译技术能以很低的开销来实现软件TEE,增强安全性。

目前,中科加禾正聚焦搭建对不同芯片都适用的工具集,通过组件化服务助力AI芯片完成生态迁移等目标,并计划在2023年12月推出跨平台大模型推理引擎。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲中科加禾创始人崔慧敏

单芯片SoC向新型“SoC”(System of Chiplets)架构演进过程中,芯和半导体产品应用总监苏周祥谈道,Chiplet对单颗SoC的拆分、组合和架构规划问题,给传统的设计流程带来了很大的挑战

他认为,Chiplet从系统最初的设计到最终的嵌合签核,都需要新的工具、新的思路和新的方法学。芯和半导体给出的答案是一个围绕Chiplet产业的全新EDA平台,苏周祥说道,全新平台需要支持系统级连接、堆栈管理、层次化设计,还需要在物理实现方面协同设计环境、支持各领域的工具、多芯片3D布局规划和布线。

因此,芯和半导体推出专为3DIC Chiplet量身定做的仿真全流程EDA平台,这是一个针对Chiplet的完整的包括设计、SI/PI/多物理场分析的解决方案。该平台拥有AI驱动的网格剖分技术,以及云计算加载的分布式并行计算能力,还支持裸芯片、中介层和基板的联合仿真引擎技术。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲芯和半导体产品应用总监苏周祥

二、遍地能跑大模型!解读高能效AI芯片三大趋势

大模型强大的内容生成、理解能力,使得其在云边端的多类型应用场景出现,不同场景为高能效AI芯片提出了新要求。边缘AI芯片对低功耗、高性能的需求增长;大模型对容量和带宽既要又要,存算一体芯片的存储介质如何选择。

这一背景下,高能效AI芯片的发展呈现出三大趋势,分别是为大模型构建低功耗AI网络,通过存内计算突破功耗墙和存储墙问题,以及边缘端的智能视觉处理芯片需求增长。

1、算力方案构建低功耗AI网络,大小模型或在云边端协同进化

智芯科联合创始人&CEO顾渝骢谈道,大模型发展会面临两方面瓶颈,大数据和大模型所产生的显存墙问题(模型是否能跑起来)以及计算墙(能否在合理时间内完成推理)问题。他认为,存内计算是解决这两大难题的有效解法,相比于GPU能更有效地利用数据,降低功耗;更高效地读取写入数据;集成存储和计算,提供更大内存容量。智芯科计划基于精度无损SRAM的存内计算CIM推出针对大模型的900系列芯片,有望替代NVIDIA在专有云、推理侧的应用。

大模型带来的算力爆发远超摩尔定律,同时大功耗算力设施带来的碳排放量巨大,因此,迈特芯希望做一款低功耗芯片,把功耗降下来。迈特芯基于立方脉动并行架构的存算芯片来满足大模型部署。迈特芯创始人兼CEO黄瀚韬谈道,通过用更低的bit来表示GPT-3的主要数据,可以将大模型参数规模变小,迈特芯可在ChatGLM2-6B大模型上用INT4和INT2算力,达到跟ChatGLM2-6BFP16相当的推理水平。在架构方面,迈特芯针对大模型算法搭建立方单元架构,通过立方脉动阵列实现高强度并行计算,其解决方案能兼顾高通量和低功耗。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲迈特芯创始人兼CEO黄瀚韬

在原粒半导体联合创始人原钢看来,随着大模型蒸馏技术发展,超大模型可以生成一系列适合边端的小模型,取得接近于大模型的效果。原粒半导体基于AI Chiplet把SoC算力跟NPU(神经网络处理器)的AI算力解绑,再灵活组合出边缘端芯片,以适配边缘端大模型的推理要求。目前,原粒半导体已研发出多模态算力核心CalCore技术,支持企业将大模型部署在端侧;以及自适应算力融合CalFusion技术,自动分配芯粒以捆绑不同的算力。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲原粒半导体联合创始人原钢

全球边缘计算市场规模不断扩大,但因场景、芯片平台、算力需求碎片化等痛点使得其算法投入产出往往不成正比,这有望依托于大模型强大的图像、语言理解、场景泛化能力得到突破。同时,云天励飞副总裁、芯片业务线总经理李爱军提到,边缘计算芯片设计需要考虑SoC集成、算力可灵活扩展芯片架构、统一的工具链架构、隐私保护等方面因素。云天励飞基于其自研算法开发平台和算法芯片化平台,训练了“云天书”大模型,推出内置云天励飞第四代神经网络处理器的新一代边缘计算芯片DeepEdge10,能满足大模型部署需要。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲云天励飞副总裁、芯片业务线总经理李爱军

2、多存储介质方案迸发,存算一体突破功耗、存储瓶颈

当前大模型对容量和带宽既要又要,存算一体芯片正处于多种存储介质百花齐放的格局。

千芯科技将不同类型存储器融合到统一存算架构(UMCA),可为客户的应用场景提供SRAM、Flash、RRAM多种存算芯片方案;通过多处理器融合,使存算一体保持大算力高能效,同步获得CPU、GPGPU的通用生态能力。其存算一体架构不依赖先进工艺,可基于成熟工艺达到先进算力;并提供芯片级算法压缩技术,方便大模型客户无感使用量化剪枝稀疏等压缩技术来达到降本增效的目标。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲千芯科技董事长陈巍

智芯科聚焦的是SRAM,智芯科联合创始人&CEO顾渝骢提到,他们将推出针对大模型的900系列,该系列可以提供1000-2000TOPS的算力,为边缘侧大模型推理提供算力,功耗为150W,采用12nm制程,价格远低于NVIDIA。

此外还有推出基于SRAM纯数字及模数混合架构的多重融合存内计算技术的九天睿芯。九天睿芯副总裁袁野谈道,AIGC在内容生成之外,还带来AR/VR、具身智能、外部感知信号链等的全面升级,其采用的混合架构模式,能实现有效精度计算,CIMD(纯数字存内计算)+CIMX(模数混合纯内计算)两种存算架构在芯片方面融合,能支持训练+推理一体应用,并使性能最大化。此外,存内计算可以通过互联、叠加实现更大算力,九天睿芯已积累多个智能信号链(智能感知/互联)的基础IP,并启动告诉互联接口技术研发,为实现大算力做准备。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲九天睿芯副总裁袁野

在知存科技业务拓展副总裁詹慕航看来,AI神经网络或者CNN矩阵运算、卷积运算的核心就是矩阵乘法/乘加运算,越典型的大模型越需要矩阵运算,便越适合存内计算的方式,将“存”和“算”结合,一次性并行完成。因此,知存科技选择使用Flash存储器完成AI神经网络的储存和运算,以解决存储墙问题。

知存科技推出的WTM-2端侧AI芯片,具备极低功耗、极低延迟,其已量产的国际首颗存内计算芯片WTM2101功耗仅5uA-3mA,兼具高算力,适用端侧智能物联网场景。下一步,知存科技还将针对视频增强场景推出WTM-8系列芯片,该系列芯片具备4核存算MPU,单核提升算力80倍,提升效率10倍。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲知存科技业务拓展副总裁詹慕航

3、3D视觉应用渗透加速,创新方案1个大脑指挥8只眼睛

肇观电子CEO冯歆鹏认为,随着视觉技术从2D向3D发展,智能3D视觉应用将渗透到全行业,且路线图可以往五十年以后延伸。但硬件成像限制和AI感知局限是3D视觉行业绕不开的痛点,冯歆鹏谈道,为了解决上述问题,肇观电子积累了3D、VSLAM、AI和OCR光学字符识别等多项机器视觉核心技术。其中,肇观电子3D深度相机能适用冷库机器人在-18℃的环境里启动“眼睛”完成任务等极限场景,他还提到,部分海外巨头的机器视觉技术甚至无法在低温环境里开机。

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲肇观电子CEO冯歆鹏

诺磊科技推出的集成CIS+AI+MCU光谱识别功能的感算一体AI光谱分析芯片阵列技术“Eye with Brain”,能做到“1个眼睛照顾8个大脑”,还能实现对多频段光谱的检测与分析。有别于AI业界的传统算法,诺磊科技的产品配合高度集成机器影像辨识传感器,能独立运行实现影像侦测、追踪及识别。诺磊科技创始人、CEO Raymond Wu提到,诺磊科技在首款110nm工艺量产芯片NB1001上,结合WLO(晶圆级光学)技术,将光学元件集成到半导体晶圆上,设计为类似于麦克风阵列的光谱检测阵列。

Raymond Wu还提到,曾经一枝独秀的影像解决方案CCD由于系统体积大、成本高、功耗大、落地难逐渐被CIS(CMOS图像传感器)取代。这与当下AI应用有相似性,他认为高算力并不是能百分之百解决所有AI应用的手段,AI应用的算力需求取决于具体应用的场景,单一化应用没有必要做复杂的AI芯片

大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

▲诺磊科技创始人、CEO Raymond Wu

结语:云边端AI芯片热战大模型,2023全球AI芯片峰会升级

2023全球AI芯片峰会第二天,云边端AI芯片热战大模型的战况更盛。

一方面,面向大模型的海量算力需求,国产大算力芯片厂商已经发起技术冲锋。GPGPU厂商从芯片设计、解决方案和生态多方面加快大模型场景落地,国内外的AI芯片厂商试图用创新架构打破NVIDIA一家独大局面,此外上下游产业链也在通过编译器、EDA等技术的创新为AI芯片性能提供“放大器”。

另一方面,大模型的落地场景正从云端延伸至边缘侧、端侧,使得国内一批高能效AI芯片厂商看到了市场发展机遇。通过存内计算、立方单元架构、Chiplet等不同创新架构,AI芯片厂商不约而同地探索降低AI芯片能耗和算力成本的最短路径,从而为大模型的规模化落地提供条件。随着大模型在端侧、边缘侧的部署门槛降低,大小模型有望实现更好的协同,从而促进AI落地产业的深度和广度大大加强。

通过第二天的峰会,我们可以看到以下五大产业发展趋势值得关注:

1、作为首屈一指的芯片巨头,NVIDIA通过在数值、稀疏性、互联、内存带宽等方面的革新,巩固了其在AI时代的霸主地位。对此,国内GPGPU厂商可以通过开源的方式解决钱、人、时间的问题。

2、传统架构难以突破大模型训练中的带宽和成本瓶颈,市场需要超过NVIDIA GPU的新架构。存内计算/逻辑能让芯片能效大幅提高,突破功耗墙和存储墙问题,从而以成熟工艺突围大算力芯片。

3、面向大模型场景,AI芯片厂商需要满足存得下、易扩展、易使用三大温饱需求,以及易使用、低成本、低延时三大升级需求。这需要AI芯片厂商加快技术架构创新,也需要用软硬一体化解决方案去突破。

4、大模型让国产AI芯片面临的生态困境更加凸显,需要产业链上下游加快适配。比如通过编译器创新,产业能够促进芯片性能提升、跨平台优化及安全性增强;也有企业打造围绕Chiplet产业的全新EDA平台,为芯片设计创新提供支持。

5、大模型正从云端场景向边缘侧、终端延展。在边缘侧和终端场景,客户对AI芯片的能耗和成本更加敏感。为此,AI芯片领域的玩家通过存内计算、立体单元架构、模型稀疏化、Chiplet等路径降低芯片能耗和成本,支持大模型“下沉”。

结合前后两天的2023全球AI芯片峰会产学研投领域46+位大佬的交锋,我们发现,“得算力者得天下”已经成为大模型时代的特征,跳出NVIDIA GPU路径的新架构、新产品越来越多。随着摩尔定律逼近极限,现实算力资源与理想算力资源之间存在巨大鸿沟,在NVIDIA之外,市场上已经涌现出更多能够填补市场空白的AI芯片企业,推动市场呈现“百花齐放”态势。

从2018年举办第一届开始发展到今天,全球AI芯片峰会至今已连续举办五届,峰会目前已经触达到了AI芯片产业链的设计、EDA、编译器等多个核心重要环节,覆盖云边端等全场景的芯片巨头和新锐创企,以及来自学术圈和投资界的专业人士。在过去两天的峰会中,我们听到了顶级AI芯片产学研用及投融资领域专家们的思想交锋,多元的精彩观点在这里碰撞。乘风新技术浪潮,全球AI芯片峰会已经成为国内极少数专注在AI芯片领域且具有较大影响力的行业峰会。

在接下来几周里,芯东西将陆续输出新鲜的干货图文,并放送多个精彩主题演讲的图文速记整理,具体请关注芯东西与智东西公众号推送内容。