芯东西(公众号:aichip001)
编辑 | GACS
9月14日~15日,2023全球AI芯片峰会(GACS 2023)在深圳南山圆满举行。在9月15日的AI大算力芯片专场上,芯和半导体产品应用总监苏周祥分享了主题为《AIGC时代算力芯片Chiplet设计的EDA解决方案》的主题演讲。
芯和半导体产品应用总监苏周祥谈道,单颗SoC向模块化SoC的Chiplet(常译为“芯粒”、“小芯片”)架构快速演进过程中,Chiplet对单颗SoC的拆分、组合和架构规划问题,给传统的设计流程带来了很大的挑战。Chiplet从系统最初的设计到最终的签核,都需要新的EDA工具、新的思路和新的方法学。
芯和半导体提供一个围绕Chiplet产业的全新EDA平台,苏周祥说道,全新平台需要支持系统级连接、堆栈管理、层次化设计,还需要在物理实现方面协同设计环境、支持各领域的工具、多芯片3D布局规划和布线。
因此,芯和半导体推出专为3DIC Chiplet量身定做的设计仿真全流程EDA平台,这是一个针对Chiplet的完整的包括3DIC设计、SI/PI/多物理场分析的解决方案。该平台拥有AI驱动的网格剖分技术,以及云计算加载的分布式并行计算能力,还支持裸芯片、中介层和基板的联合仿真引擎技术。
以下是苏周祥的演讲实录:
大家好!我来自芯和半导体,有些人对芯和半导体比较熟悉,有些人是第一次听说,它是国内一家EDA软件公司,从2010年成立到现在已有14年。我还注意到,我们是这次AI芯片峰会的演讲嘉宾里唯一一家做Chiplet EDA的公司。
我的分享有这几个部分,一是Chiplet的发展演进,二是在设计Chiplet过程中的关键技术,三是芯和半导体为Chiplet设计提供的EDA设计仿真平台,最后是一些真实的案例。
一、Chiplet迎爆发风口,EDA工具是其实现的关键技术之一
在1965年的时候,摩尔老先生提到用小型功能构建大型系统,分别进行封装和互联,性价比可能会更高。那时候,摩尔已经预测到先进封装的时代会到来。随着这么多年的发展,随着Chiplet被AMD/英特尔等成功应用,现在Chiplet技术应用的越来越广泛,Chiplet通过很多功能小芯粒实现了复杂的系统集成。
我们回顾一下Chiplet的发展过程。
第一,随着摩尔定律的放缓,先进芯片工艺越来越接近于工艺的极限,性能提升也开始放缓。刚刚发布的苹果iPhone 15里的A17 Pro芯片,经过近期的测试,大家都可以看到,它的性能其实并没有想象得那么炸裂。
第二,工艺制程从16nm到7nm、5nm、3nm,设计成本越来越高,投资回报所需的销售额非常巨大,这不是一般公司玩得起的。
第三,随着大算力芯片的面积越来越大,已经接近或超过了光罩的极限,这时候良率也出现了各种各样的问题。为解决设计成本,解决良率,解决芯片工艺的问题,模块化的SoC开始兴起,就是我们所说的Chiplet。
Chiplet的优点是什么呢?可以用更小的芯粒尺寸带来更高的良率,并突破光罩尺寸的限制,降低制造成本。芯粒具有更多的工艺节点选择,可以将最佳节点的芯粒进行混合集成。通过芯粒的复用,提高研发效率,缩短上市周期。
目前为止,比较成功的一些Chiplet应用包括:1)AMD MI300,它是首个CPU和GPU的集成;2)英特尔Ponte Vecchio,它主要是AI和GPU的集成;3)英伟达H100,这是最新的GPU Chiplet。这些Chiplet应用的芯片可以说明:Chiplet先进封装是除了先进芯片工艺之外,一个新的可以超越摩尔的赛道。
要实现Chiplet,我们需要关注哪些技术,或需要解决哪些技术?
第一个是die-to-die互联。Chiplet是多个小芯粒的互连集成,我们首先要解决的就是互连标准的问题。理论上来说,Chiplet里的每一个小芯粒可能来自于不同的厂商,不同厂商的小芯粒要进行互连,就需要遵循一定接口标准。
国外的UCIe协议是Chiplet的标准之一,可喜的是,国内也已经出现了好几个Chiplet的标准。昨天,北极雄芯马总所演示的一颗芯片就是基于国内Chiplet标准而设计制造的。在标准上,我们国内目前做得还算不错,但是整个标准的完善可能还需要一段时间。
其次,对于die-to-die之间的互连,我们要保证信号与信号之间的延迟,而CCD到IOD之间的延迟需要满足一定的要求和规范,这涉及到信号完整性和电源完整性的问题。
第二是先进封装。关于Chiplet的封装设计,对于不同芯粒之间的互连,如何满足它的延时?其次,对于大功率芯片,如何设计它的供电和散热?在芯片面积很大的时候,如何考虑良率,如何设计它的翘曲?这都是封装过程中非常重要的问题,包括无源器件集成、寄生效应的抽取、成本和可靠性的控制等等。
正如昨天的某位演讲嘉宾提到的那样,封装工艺的发展对芯片和Chiplet的发展非常重要,如果我们不能有非常好的封装工艺,那么我们就需要复杂的设计和更高的速率去规避封装上的问题,所以以后封装对芯片的设计会越来越重要。
封装工艺经过多年发展,已经走过了好几个阶段,像70年代的MCM,2000年有了SiP(System in a package),2010年出现2.5D IC,2020年出现BUMP-LESS,到如今异构集成的方式,每一种方式都可以协助我们去做不同需求的芯片封装设计。
第三个是设计流程和EDA工具,这也是非常重要的。Chiplet是一个新的事物,一个新的先进封装模式,传统的EDA工具不能满足新的设计流程,所以需要一个新的设计流程和新的EDA工具。
芯和半导体认为,Chiplet的设计流程需要满足这么几个要求:
一是在架构方面,需要系统级的连接,需要堆栈化管理和层次化设计。在这方面,开发者可以选择聚合方式,即由多个芯粒(或小芯片)组装成Multi-Die系统;也可以选择分解方式,即将应用分解到多个芯粒上。此外,开发者还必须选择Die-to-Die接口的协议、位置和尺寸,以及每个芯粒的工艺和封装技术。
二是在物理实现方面,需要协同化设计环境、跨领域工程变更、多芯片3D布局规划和布线以及统一数据库。
三是在分析的时候,我们需要进行片上封装电磁协同仿真,也需要考虑多物理场分析,像整个芯片里信号、电源、热、应力多物理场之间的耦合;另外和布线工具可以做到无缝集成。
四是在验证过程中,需要考虑芯片工艺规则,也需要考虑封装里的工艺规则,甚至需要考虑系统级组装的工艺规则。
二、芯和半导体全面支持2.5D Interposer、3DIC和Chiplet设计
对于以上Chiplet所面临的挑战,芯和半导体通过十几年的工作和开发,推出了基于Chiplet的设计和仿真的EDA软件平台。
在设计方面,客户可以基于统一数据库的EDA设计平台,从多芯片chiplet的原型构建、架构探索、早期系统级仿真分析到Interposer物理实现以及分析验证,都在同一个平台环境中完成。
在芯和半导体推出的多物理场仿真EDA平台上,客户可以完成Chiplet封装的信号完整性的仿真以及电源完整性的仿真,甚至可以进行评估热分布和热传递的评估。同时在较热的情况下,客户可以评估应力的变化。总得来说,芯和半导体提供了一个集成信号、热、多物理场仿真的完整解决方案。
▲芯和Chiplet设计平台
首先,在架构规划阶段,最大的一个挑战是:在项目开始时,可供使用的设计数据少之又少,而此时又必须做出许多重要的决策。多芯片chiplet给架构设计带来了的新的问题,芯片设计过程中的每一个选择都应要从整个系统的角度做考量,以消除可能对系统产生的不利影响,例如,接口的不同实现方式、协议的选择、裸片是并排放置还是垂直堆叠、使用什么类型的封装更为合适,等等。
另外,还必须从系统级的角度对功耗和性能进行分析。例如,在3D堆叠设计中,散热会变得更加困难,因此热传递和供电问题往往更加严重。开发者需要找到一种方法,将电力有效地从低层的裸片传递给顶层的裸片,以消除散热问题。这些可以通过统一的设计平台基于虚拟原型构建,快捷规划bump/TSV阵列,建立不同的分析模型,进行系统级的架构探索和早期分析,建立合理的系统架构、优化性能、功耗和散热关键性能指标,并围绕几个关键领域做出的早期架构决策,最终得到能够实现多芯片通信的吞吐量和延迟、系统功耗、多芯片堆叠的散热和热管理等关键性能指标的最佳架构解决方案。
其次,对于要处理和实现超大规模的bump、TSV、chiplet间互连以及chiplet与封装基板间的互连,设计平台必需具备足够的规模和高效的物理布线能力,尤其是对于特定的布线模式,例如HBM、UCIe等特定的接口互连,需要定制化的高效高质的布线,这些要求和需求在这个设计平台中可以全面支持。
▲芯和Chiplet设计EDA多物理场仿真平台
在上述EDA多物理场解决方案里,最核心的技术是电磁场仿真引擎,芯和半导体是目前国内唯一一家可以支持跨尺度电磁场仿真引擎技术的EDA平台的企业。
为什么要支持跨尺度呢?在进行Chiplet设计时,会涉及到一些片内的结构,片内的结构基本要到微米量级,甚至零点级微米的量级。二是设计过程涉及到Interposer(中介层)尺度,台积目前可以将Interposer尺度做到一点几微米,有些是在二点几微米;国内可以做到6μm、8μm。其次,设计过程还涉及有机基板的工艺,以及PCB的工艺,这种工艺涉及几十微米,甚至几百微米的结构。
对于Interposer尺度变化非常剧烈的模型,仿真引擎一定要支持跨尺度的电磁场仿真技术,不然在有限的时间内就不能得到精度比较高的结果。
另外一个核心技术是网格,在电磁场仿真里最重要的就是网格。芯和半导体或是国内最早开发自动化、智能化网格技术的企业之一。对于一个模型,芯和可以在保证精度的情况下,得到最好的网格分布。电磁场仿真里的高性能分布式计算也很重要,随着模型越来越大,很多模型都不能用一台机器或两三台机器去求解,需要支持分布式的计算。分布式计算可以将多台机器联合起来当成一台机器去用,这样可以求解更大的模型,做更快的电磁场仿真计算。
在芯片、中阶层、封装的联合电磁场仿真中,最重要的就是中间的Interposer,它是一个硅转接板,我们需要去考虑上面的信号完整性。同时,上面的die和下面的Substrate(基板)对信号也会带来一些耦合的影响,对power(电源模块)也会带来影响,所以需要把上面的die和下面的Interposer和Substrate做一个整体的模型去求解,以及进行联合仿真,进行分布式的仿真。
经过芯和客户的评估,芯和的Chiplet EDA仿真引擎相较于业界的高端工具,仿真速度可以加快10倍,内存可以降低20倍。这是非常大的进步,特别是内存方面,如果内存占比减少20倍,那就意味着仿真的模型可以比竞品大20倍。在仿真速度和内存占比上来说,芯和的Chiplet EDA仿真工具在全球范围内遥遥领先。
▲大容量跨尺度引擎提供顶尖的仿真速度和效率
另外,芯和的Chiplet EDA仿真平台集成了很多Chiplet互连结构模板。在做芯片封装的过程中,主要会碰到RDL和TSV这两种结构。(如图)上面一排主要是五层的CoWoS或是三层的CoWoS结构,有shielding的和没有shielding的RDL模板。下面主要是针对于TGV、TSV、TCV和TSV矩阵,还有BGA过孔模板。各种各样的模板可以支撑工程师在没有GDS的时候,通过前期设计参数,快速地生成一个模型,快速地评估RDL与TSV对整个信号通道或对电源通道的损耗。
▲内置多种参数化走线与过孔模板
另外也可以支持AMI model或IBIS model,我们可以通过导入AMI和IBIS model,计算信号在时域上的波形和眼图,评估眼图是不是够大,是不是满足SPEC的要求。
在设计Chiplet过程中,功耗是非常重要的部分,设计的好坏会直接影响芯片的性能,以及这颗芯片到底可以跑多高的速率。有人说对于Chiplet设计,电源是非常重要、非常难的一个设计点,这是有一定道理的。
在芯和的多物理仿真平台上,客户可以对Chiplet先进封装的电源完整性做DC和AC的快速仿真,也可以快速地求解每一个power平面电阻大概在什么范围内,也可以求解需要多少颗电容,以及电容组合的优化。
随着国外UCIe标准和国内小芯片标准的兴起,芯和的Chiplet仿真平台也在第一时间支持了各种标准、各种协议,大家在使用过程中可以直接按照UCIe标准去做数据的处理和查看,非常方便。
芯和的Chiplet仿真平台还支持很多的工艺和接口,包括台积电CoWos-S/R/L、台积电InFO,还有英特尔EMIB和三星I/R-Cube;在接口方面,有HBM 2/2E/3,还有GDDR 6/5/4、PCI-e 6.0/5.0/4.0。在导入格式方面,该平台支持GDS + iRCX,还有Allegro MCM/SiP、ODB++;在互连这一方面,可以支持GSGSG结构和没有GSGSG的结构。
三、技术自主可控,融入全球Chiplet头部供应商生态圈
来看三个比较有代表性的案例,涉及HBM、TSV和SerDes结构,这也是在Interposer里最主要的三种结构。
首先介绍第一个HBM的案例。每一个HBM的堆栈里有8个channel(通道),每个channel里有128个DQ(I/O通道),总共有1024个DQ,在这么宽的数据带宽下面要仿真,其实压力是非常大的。这个模型有96个net,包括了VDD/VSS平面,案例一共仿真了10个小时。右边是S参数的回损/差损和它的TDR,加上IBIS模型之后的眼图。
这是TSV仿真的case,从右边(如图)可以看得出来,由于TSV周围有一圈二氧化硅,把中间的铜导体和半导体硅做了隔离,会对插损/回损造成明显效应。在数据信号通道或电源通道过程中,我们需要考虑TSV所带来的影响,另外我们需要Signal TSV过孔和Ground TSV,组成最好的TSV pattern。
在1μm coating(涂层)、0.5μm coating和没有coating过程中,这是芯和进行仿真出来的结果(如图),我们大概仿真了56分钟。
再列举一个SerDes的模型,也就是Silicon Interpose上的die-to-die的模型。里有22个差分对,一共有44个net。通过全3D的网格剖分以及HPC,我们可以把整个S参数如回损/插损等,近端串扰和远端串扰都完全抽取出来。通过客户那边的测试对比,我们平台的精度完全满足客户的工程需要。整个仿真跑了大概6个小时,这也是在竞品的工具里很难跑得出来的。
在全球范围内,芯和的Chiplet EDA仿真平台,不管是速度还是精度都做到了遥遥领先。
在AIGC时代,大算力需求推动单颗SoC向模块化SoC的Chiplet快速地演进。我们需要解决die-to-die的互连问题,需要开发先进封装异构集成的技术,也需要解决EDA工具所带来的问题。芯和半导体提供完整的Chiplet EDA解决方案,且已经被国内外多家Chiplet公司所采用。
从2010年起,芯和半导体就一直致力于Chiplet的设计、多物理场仿真工具的开发,芯和所有的开发成果都是自主可控的自有IP,目前这些EDA工具支撑了国内外500多家客户的使用,为全球的客户提供了EDA解决方案。
在座的朋友如果有对Chiplet EDA这一部分感兴趣,也可以随时和我们交流。谢谢大家!
以上是苏周祥演讲的完整整理。