智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西12月18日消息,今日,在光合组织2025人工智能创新大会(HAIC2025)上,中科曙光发布并展出了全球领先的大规模智能计算系统scaleX万卡超集群,这也是国产万卡级AI集群系统首次以真机形式亮相。

scaleX万卡超集群由16个scaleX640超节点通过全栈自主研发的原生RDMA高速网络互连而成,部分技术与能力已超越海外同类产品研发路线图的2027年NVL576里程节点,其核心技术优势如下:

全球首创单机柜级640卡超节点。scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。作为世界首个单机柜级640卡超节点,scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。

自主研发原生RDMA高速网络。曙光scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,超节点间的通信性能达到业内领先水平,充分释放万卡超集群算力,并可将超集群规模轻松扩展至10万卡以上,相比传统IB网络提升2.33倍,同时网络总体成本降低30%。

存、算、传紧耦合深度优化。通过“超级隧道”、AI数据加速等设计,scaleX实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写带宽极致需求挑战,提升高通量AI推理时的响应速度与结果精准度,并可将AI加速卡资源利用率提高55%。

超集群数字孪生与智能调度。通过物理集群数字孪生,实现故障定位、修复等全流程可视化智能管理;智能化运维平台可支撑集群长期可用性达99.99%;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。

中科曙光发布scaleX万卡超集群,部分能力超越2027年NVL576

scaleX万卡超集群可支持多品牌加速卡以及主流计算生态,并实现400+主流大模型、世界模型等适配优化。在实际应用中,该超集群可覆盖大模型训练、金融风控、地质能源勘探及科学智能等多元场景。

结语:国产AI算力基建再进阶,比肩国际主流水平

AI发展对底层算力提出了前所未有的挑战,性能墙、生态墙的制约突出,高端算力供给不足、软硬件适配不畅、技术标准不一、应用成本高昂已成为广大中小企业发展的显著壁垒。

此次,scaleX万卡超集群部分技术与能力已超越海外同类产品研发路线图的2027年里程节点。中科曙光高级副总裁李斌谈道,面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求,scaleX万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破。这也标志着我国在构建世界一流超大规模智算基础设施上取得关键突破。