公开课预告：智算集群技术概述｜腾讯专有云首席架构师方天戟主讲

随着人工智能技术的快速发展，尤其是大模型参数规模的持续增加，算力需求呈爆发式增长，对AI算力基础设施也提出了更高的要求，并进一步推动了智算集群的兴起。

在国际市场， Google推出了拥有26000块NVIDIA H100 GPU的超级计算机A3 Virtual Machines，同时基于自研芯片搭建TPUv5p 8960卡集群。Meta在2022年推出了拥有16000块NVIDIA A100 的AI研究超级集群，2024年初又公布2个包含24576块NVIDIA H100的集群，用于支持下一代生成式AI模型的训练。马斯克xAI团队拥有10万块H100的Colossus集群已经上线，也是目前全球最强的智算集群，而未来规模还要翻一倍，扩展到15万张H100+5万张H200。

在国内，字节跳动搭建了一个12288卡Ampere架构训练集群，研发MegaScale生产系统用于训练大语言模型。科大讯飞在2023 年建成首个支持大模型训练的国产万卡智能算力集群“飞星一号”。中国移动近日也宣布，其智算中心（哈尔滨）节点超万卡智算集群正式投用。

全球科技巨头、电信运营商、云服务厂商等都在加紧布局智算集群，以抢抓大模型发展的机遇。

但是，智算集群并不是简单的硬件堆砌，集群规模的线性提升也并不直接等同于集群有效算力的线性提升。要构建一个高能效的智算集群，需要从卡间和节点间的互联网络、软硬件的适配调优、算力的调度优化、设备的管理与运维等多个方面，进行综合考量和设计规划，更需要产业链上下游厂商通力合作。

为了帮助大家更好的了解智算集群，智猩猩芯片与算力教研组策划推出「智猩猩智算集群公开课」，聚焦集群构建、互联网络、算力调度、存储等关键技术。目前，来自中国移动、腾讯、矩向科技、益思芯、云脉芯联的五位技术专家和决策者已确认参加，并将以视频形式带来直播讲解。

10月21日19:30，「智猩猩智算集群公开课」第一期将开讲，由腾讯专有云首席架构师方天戟主讲，主题为《智算集群技术概述》。

方天戟老师首先会分享智算集群基础架构的发展趋势，并从计算、网络、存储等维度对常见的智算集群硬件架构进行解读。之后，方天戟老师还将带来国产化智算集群方案初窥，以及未来趋势。

公开课预告：智算集群技术概述｜腾讯专有云首席架构师方天戟主讲

公开课内容

主题：智算集群技术概览
提纲：
1、智算集群基础架构发展趋势
2、常见的智算集群硬件架构
3、国产化智算集群方案初窥
4、小结与展望

主讲人

方天戟，腾讯专有云首席架构师，《大模型时代的基础架构》作者，《云鉴》编写组成员，20年行业经验，曾服务于华为、新华三、Juniper等业界著名企业，为航天科技、BMW、中国建筑等业界头部客户设计过企业上云整体方案并落地。

课程信息

直播时间：10月21日19：30
直播地点：智猩猩芯算视频号

相关推荐