芯东西(公众号:aichip001)
编译 | ZeR0
编辑 | 漠影
芯东西3月9日报道,今夜凌晨,苹果又开了一场“芯片上”的发布会!
意料之内,芯片再次成为苹果春季新品发布中最亮眼的存在;意料之外,传闻已久的M2芯片没有登场,反而是M1系列推出旗舰版M1 Ultra,以将两块M1芯片“粘”在一起的设计思路,震惊全场。
作为M1系列Mac电脑芯片的第四弹,M1 Ultra成为了苹果电脑芯片的终极武器。苹果通过一个三步走的策略,接近实现给Mac两年换芯的大计,而且几乎每次都在“干翻”自己,也几乎每次都在“教”芯片同行做事。
1140亿颗晶体管、20核CPU、最高64核GPU、32核神经网络引擎、2.5TB/s数据传输速率、800GB/s内存带宽、最高128GB统一内存……这些堪称恐怖的规格全部集聚于一块“至尊版”电脑芯片上。
至此,苹果在M1系列电脑芯片棋局上的落子,得以清晰而完整的展现。
▲苹果M1系列四大芯片,从左至右:M1、M1 Pro、M1 Max、M1 Ultra
好马配好鞍,M1 Ultra芯片被搭载于单台3万元起售的台式机主机Mac Studio上,号称比最快的iMac性能最高提升3.4倍,比顶配Mac Pro性能提升80%。
这是苹果继早前圆柱形“垃圾桶”式外形、长方形机箱式外形后,对专业级桌面主机形态的又一次尝试。虽然外形第一眼看起来像一个加厚版的Mac mini,但其内里从结构到配置则完全不同。
▲Mac Studio
除了首次在顶级专业台式Mac中采用自研M1系列芯片外,苹果还第一次往显示器新品Studio Display里塞了一颗A13仿生芯片,A13之前被用在2019年iPhone 11系列智能手机、2021年入门级iPad 9中。
而加入手机SoC级别的芯片,用来强化摄像头和音箱功能,也是苹果的显示器形态的一次新尝试。不过目前苹果专业显示器的天花板仍然是那台售价超4万元的XDR 6K专业显示器。
▲Studio Display(图左)和Mac Studio(图右)
Mac Studio主机和Studio Display显示器都从3月10日9点起预购,主机3月18日发售,显示器则要等获批后发售。
此外,新款iPad Air 5首次搭载与iPad Pro同款的M1芯片,第三代iPhone SE智能手机也换上了与最新iPhone 13系列同款的A15仿生芯片,两款新品将从3月11日21点起预购,3月18日发售。
苹果Mac换芯的策略是什么?这个性能突破天际的电脑芯片解决了哪些核心难题?下面,芯东西将着重复盘和解读这背后的技术逻辑。
一、M1 Max + M1 Max = M1 Ultra
从2020年6月宣布Mac换芯计划,并在当年11月首推电脑芯片M1,到现在不到两年的时间,苹果已接近完成既定的“两年芯片过渡计划”,只差最后一款Mac Pro。
去年苹果推出性能爆棚的M1 Max芯片时,大家普遍以为这已经是M1系列芯片的封顶之作,毕竟M1 Max芯片已经触及台积电N5制程可制造的极限,面积达到432mm²。
结果,苹果这次直接掀翻了台式机芯片的天花板,亮出M1系列的真正收官之作——M1 Ultra。
据芯东西得知,M1 Ultra就是苹果M1系列的最后一颗芯片,不会有第五颗了。而且从一开始,苹果就有清晰计划要分为三个阶段来将M1用到Mac产品:第一阶段,进入到普及性的Mac,包括MacBook Air、Mac Mini乃至入门版MacBook Pro;第二阶段,来到更高阶的MacBook Pro;第三阶段,进入专业级台式机主机,将桌面电脑性能推升到一个新的高度。
M1 Ultra采用台积电5nm工艺,由两块M1 Max芯片拼接而成,这样的“组合”使得其晶体管数量达到1140亿颗,这也是苹果自研芯片的晶体管数量首次突破1000亿颗。
该芯片的各项硬件指标也翻番:20核CPU包含16个高性能核心、4个高能效核心;GPU核心数量增至64核;32核神经网络引擎能够带来每秒22万亿次的运算能力;统一内存最高规格达到128GB;内存带宽提升至800GB/s,达到最新型号台式PC芯片的10倍以上。同时,M1 Ultra最高支持8TB的SSD固态硬盘存储。
尤其是多die(Multi-die)GPU配置,可以说是做了大胆而惊人的设计,这里的核心难度在于高端部件通常消耗的内部带宽过高,超过1TB/s,致使将它们连接起来在技术上很难实现。
像之前Mac Pro中用的传统多GPU系统,每个GPU都是独立的。因为带宽不够,多个GPU难以在单个图形任务上进行有效地协同。但如果能通过某种方式将多个GPU借助die-to-die技术连接起来,就可能在一个任务中同时使用它们。
这是多家芯片公司都在研究的问题,目前看来,苹果似乎成为了第一家实现目标的公司。
在介绍M1 Ultra前,苹果高管也就两块芯片“粘”在一起的难点卖了个关子,他说直接采用两块芯片来增加芯片核心面积的方式很常见,但以前这种做法会增加功耗、拖慢传输速率,给开发者增加负担。
那么苹果怎么做呢?
今天,苹果揭晓了其秘密武器——UltraFusion。
在对M1 Ultra做规划时,苹果考虑到对统一内存的扩充,重点思考了延迟、带宽、功耗和性能等指标,选择采用了融合拼接的方式,并与合作伙伴(芯片代工制造方)进行了非常密切的合作,来实现UltraFusion技术的应用。
这里涉及复杂的技术难关,比如,为了做到统一的架构,上面和下面的芯片延迟需相同,CPU看到的必须是一致的。苹果要求其延迟不要超过一般的延迟,对性能的影响不到10%。
此前M1系列芯片一直采用苹果自己定制的封装方式来实现高速统一内存架构,而UltraFusion作为苹果创新定制的多晶粒架构,是2.5D先进封装的一个最新例子。
其基本原理应该是某种硅中介层(interposer)被铺在两个M1 Max芯片下面,两个芯片之间的信号可以通过硅中介层的布线。这使得M1 Ultra芯片可同时传输超过10000个信号,其连接密度是现有技术的两倍,实现高达2.5TB/s低延迟处理器间带宽,比业内高端多芯片带宽的4倍还多。
这意味着,M1 Ultra芯片虽然是两个芯片的组合体,但在工作时会表现出一枚芯片的整体性,被所有软件识别为一枚完整芯片,开发者无需重写代码就能直接运用它的强大性能。
可以说,史无前例。
总而言之,借助UltraFusion架构,苹果成为第一家将两个GPU拼在一起而且实现2.5TB/秒超高传输速率的芯片供应商。
苹果这些不按常理出牌的做法,背后其实是一种以解决问题为第一目的实用主义原则在做指导,比如他们把这个“粘接融合多个芯片”的UltraFusion架构没有当做一个标准接口,只是他们为了实现M1 Ultra性能功耗目标的一个工具,而如果后面遇到更大的挑战,说不定还会整出怎样更脑洞大开的“工具”。
除了这些以外,M1 Ultra内还集成了多种定制的苹果技术,如能够同时驱动多台外接显示器的显示引擎、雷电4控制器集成、同类最佳的安全技术,包括苹果最新的安全隔区、基于认证硬件的安全启动和运行时防漏洞利用技术。
二、性能实测:GPU功耗远低于英伟达3090
苹果在特定电脑系统上进行了性能测试,大致可以反映Mac Studio、Mac Pro和iMac的性能对比。
参与测试的Mac Studio系统配置为M1 Ultra芯片、128GB RAM、8TB 固态硬盘,Mac Pro系统配备了3.2GHz 16核英特尔Xeon W处理器、192GB RAM、4TB固态硬盘,27英寸iMac系统配备了3.6GHz 10核英特尔Core i9 处理器、128GB RAM、8TB固态硬盘。
根据苹果提供的数据,在相同功耗下,M1 Ultra处理多线程任务的速度比16核英特尔旗舰至强i9-12900K提升了90%;实现同样性能时,M1 Ultra的功耗比12900K少100W。
这里需注意的是,在多线程工作负载方面,苹果可以说一直都是顶级守擂者,但其在单线程方面有点挤牙膏,高性能核心已经被英特尔新架构超越。
GPU方面尤其值得一提。
苹果声称实现同样的性能,M1 Ultra的功耗只有主流独立GPU的1/3,或比最强显卡英伟达GeForce RTX 3090少200W。
当然,考虑到苹果M1 Ultra采用的是台积电5nm工艺,而英伟达3090采用的是三星8nm工艺,这里制造工艺的升级贡献了一部分能效的提升。
相比27英寸iMac中的AMD Radeon Pro 5700XT独立显卡,M1 Ultra的GPU性能提升高达4.5倍,甚至比起Mac Pro中的AMD Radeon Pro W6900X,性能提升幅度也达到了80%。下图是8K渲染速度提升情况的测试结果。
M1 Ultra的媒体处理引擎资源同样翻倍,其处理 ProRes格式视频编解码任务的吞吐能力提升至史上最高,最多可同时播放18条8K ProRes 422格式的视频流。
三、将A13仿生芯片塞入显示器
为了配合Mac Studio主机,苹果还推出了一款分辨率达5K级别的新显示器产品Studio Display。
这款显示器首次内置了苹果的自研旗舰手机芯片A13,用于优化视频人物居中、空间音频和“嘿 Siri”等功能的处理能力。
同时,新款iPhone SE用上和iPhone 13系列同款的A15仿生芯片,有6核CPU和4核GPU,CPU性能比iPhone 8提升1.8倍,GPU处理速度比二代SE最高提升1.2倍,神经网络处理能力提升26倍。
iPad Air 5亦换上与iPad Pro同款的M1芯片,相比上代A14性能提升达到了60%,8核图形处理器最高提速至2倍,16核神经网络引擎也让机器学习性能大幅提升。
当然,软硬件协同是苹果产品体验的一贯优势,macOS系统和各款专业App已为苹果M1系列芯片优化,能够充分利用M1 Ultra的性能。
面向碳中和,苹果称其定制芯片的出色能效帮助 Mac Studio在整个产品生命周期内消耗更少电力,并称Mac Studio在一整年里所消耗的电力比起一台高端配置的台式PC可节省最高达1000千瓦时。
苹果目前在全球公司运营方面已实现碳中和,计划在2030年年底前让全部公司业务实现碳中和,包括制造供应链和所有产品生命周期在内。这意味着苹果所生产的每一枚芯片,从设计到制造,都将实现100%碳中和。
结语:苹果芯,干翻自己!
如今,苹果已经在几乎所有的Mac产品线中全面应用了其自研芯片。
今天苹果的推出M1 Ultra芯片,虽说与此前盛传的M2芯片不符,但其直接将两块GPU连在一起的设计思路,乍一看有些出乎意料,但细想其实是非常合理的进化方向。
决心在自研电脑芯片上一往无前后,苹果每一次推出的M1系列芯片新品类都是各种先进技术的集大成者,并且每一次都创造了一个新的芯片设计高地,谁能想到当初惊艳登场的M1芯片,如今竟成了M1系列中最低配的存在呢?
在单个芯片触达实际尺寸极限后,苹果开始走堆料路线,并通过创新架构将多个芯片封在一起,实现更强悍的性能效果。理论上,三个乃至更多芯片的组合,也是可以实现的,不过据芯东西了解,苹果暂无这么做的兴趣。
至于M1芯片终极版本究竟能在实际产品中发挥出怎样的水准?我们非常期待看到它在后续实测的表现。