智东西(公众号:zhidxcom
作者 | 香草
编辑 | 漠影

在大模型热潮的推动下,AI算力呈现出爆炸式的增长,为云计算行业带来新的机遇。

但同时,如何满足巨大的算力需求,提供高性能、强稳定的解决方案等,也为云厂商带来新的挑战。云计算厂商如何在智能云赛道中突围?

智东西7月9日报道,在2024世界人工智能大会(WAIC 2024)期间,天翼云科技有限公司董事长、总经理胡志强带来主题演讲,深入解读了天翼云在智算资源供给、智算服务能力、模型应用生态三个方面的能力。

越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题

▲胡志强在WAIC上演讲

具体来说,天翼云自建了丰富的智算资源,并汇集了大量社会智算资源;基于一体化计算加速平台云骁、一站式智算服务平台慧聚,能承载万亿参数规模的基础大模型训练及行业大模型训练推理;推出AI云电脑,构建红云大模型开发者社区,打造开放的模型生态。

其中在智算服务方面,天翼云聚焦基础大模型、行业大模型两大场景,分别提供模型开发训练、训练推理等服务,通过云骁、慧聚两大平台打造了万卡集群的平台化能力和解决方案能力,为客户提供高效、便捷、稳定的智算服务。

天翼云智算服务具体能解决哪些行业痛点?是否已经在企业中落地并取得一定成效?带着这些疑问,我们试图寻找答案。

一、天翼云万卡方案破解三大挑战,可训万亿参数基础模型

现阶段,大模型的参数量在Scaling Law的推动下持续增长。以OpenAI等第一梯队的大模型公司为例,其一直在扩充训练数据、加大算力投入、堆积模型参数等方向上前进,尤其是基础大模型,呈现出参数越来越大的趋势。

而随着模型参数的增加,对计算资源、存储能力和网络带宽等需求也随之增加,这对AI基础设施提出高要求。

胡志强谈道,天翼云在支撑中国电信星辰大模型训练过程中,遇到的挑战主要集中在三个方面:算力、性能和稳定性

算力方面,要训练一个万亿参数大模型,至少需要单集群6000卡,甚至万卡以上规模,并通过同等规模的亚毫秒延时级RDMA(远程直接数据存取)网络,才能支撑训练过程中PB级的数据存取。

性能方面,大规模的分布式训练对算力、存储、网络协同难度大,模型训练中生成的Checkpoint文件大、读写速度慢等诸多性能问题,导致大模型训练综合效率低下。

稳定性方面,AI基础设施软硬件技术栈复杂,任何中断或错误都可能导致训练失败,重新开始不仅浪费时间,也增加了成本。例如,硬件故障率高,且故障难以发现、恢复速度慢,严重影响大模型训练效率。

针对这些痛点,云计算厂商应如何破解?

天翼云交出的答卷,是面向超大规模参数基础大模型开发训练的万卡解决方案。

具体来说,天翼云基于单集群万卡智算中心结合一体化计算加速平台云骁一站式智算服务平台慧聚,从基础设施到平台,构建了基础大模型训练解决方案。

越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题

▲天翼云智算服务相关成果

算力层面,天翼云以可横向扩展的PB级并行文件存储服务(HPFS),提供高性能、亚毫秒级时延的并行文件存储能力;以超大规模二层RDMA网络,满足基础算力的需求;同时,通过对计算、内存、通信等方面的多维优化,提升了综合算效。

性能层面,天翼云对AI框架进行升级,使编译效率翻倍;通过拓扑感知调度,大幅提升集合通信效率;基于存储异步加速,实现Checkpoint文件快速保存及加载。

稳定性层面,基于对200多项指标的实时监控,模型训练单次不中断运行可达近一周时间;且一旦发生故障,可迅速断点续训,实现高稳定可用运行。

基于国产万卡智算集群和自研智算平台,天翼云智算服务已经具备支撑万亿参数基础大模型训练的能力

从系统工程上来看,要构建国产万卡集群,并不只是堆叠一万张卡这么简单,还涉及到硬件设计、软件架构、网络通信、能源管理以及系统稳定性等多个方面的综合考量,包括超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等技术难题。

天翼云提供的万卡解决方案,展示了国产算力如何通过技术创新来应对这些挑战,这不仅对天翼云自身是巨大的技术突破,也为整个行业提供了启示。

二、一站式智算服务,行业大模型训推三步走

在本届WAIC上,除了众多基础大模型的迭代更新引人注目外,行业大模型如何推动技术落地,也成为备受关注的话题。

不同于基础大模型注重通用性和广泛适用性,行业大模型更侧重于特定行业的定制化需求。在落地层面,尤其是面向企业场景,行业大模型发挥了至关重要的作用。

而在技术层面,基础大模型的开发重点在于模型的训练过程,包括模型架构的设计、大规模数据集的构建等;行业大模型则更侧重于训练推理过程,即如何对训练好的模型面向不同场景进行微调,并应用到实际场景中,解决具体问题。

行业大模型的训推服务同样面临三大挑战:训练部署工程化复杂、训推效率低、训练中断频繁

越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题

▲配图由AI生成

基于云骁、慧聚两大平台,天翼云面向行业大模型训推场景提供一站式的智算服务,针对性地破解这三个难题。

训练部署工程方面,行业大模型通常需要处理特定领域的复杂数据,这要求模型训练和部署过程中必须考虑数据的多样性和特定性,这带来数据的清洗、标注,模型的适配、训练、调优、量化及部署等7个环节的难题,因此,自动化流程的建立对于简化训练部署至关重要。

针对这些复杂环节,慧聚平台提供全栈工具链,通过预置行业数据集、支持国内外主流AI加速硬件、预置多个基础大模型等能力,实现大模型训推三步走。客户只需要经过选数据、选硬件、选模型三个步骤,就可以实现大模型精调。

训练效率方面,大模型的训推过程需要大量计算资源,如何高效利用这些资源、避免资源浪费,是提高训推效率的关键。

例如,在训推过程中,数据需要在不同的处理单元之间传输,数据传输的效率直接影响到整体的训推速度。针对模型参数量大、算子运行效率低、模型开箱性能低等因素,天翼云通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率。

为了进一步优化模型结构和算法、节省算力成本、提高模型运行速度,天翼云使用了模型量化压缩、自研推理加速算子库、自硏AI推理加速框架等核心技术,让模型推理效率得到显著提升。

训练连续性方面,特别是在大规模训练过程中,硬件故障是导致训练中断的常见原因;同时,软件或配置错误、数据输入错误、运行环境不稳定等问题也常常导致训练的中断。

如何在全链路感知故障并准确定位,成为解决训练频繁中断难题的重要挑战。

天翼云通过全链路故障分钟级检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,实现训推过程全链路监控。

基于一站式的智算服务能力,天翼云为国内领先的AI公司提供AI基础设施层服务,缩短其语音识别模型训练时间周期并降低算力成本;在科研、制造业等领域,天翼云智算服务也已经落地,帮助客户进行大模型训练和微调,降低科研、科技创新成本。

随着AI技术落地的需求增长,行业大模型也将迎来更广阔的应用前景。天翼云提供的一站式智算服务能力不仅能帮助企业客户突破瓶颈,也能在实践过程中不断汲取经验再进化,推动技术迭代创新。

结语:国家队出手,智算云助力产业数智升级

在WAIC 2024现场,天翼云以最新的智算成果亮相,展出了单体万卡液冷智算池,息壤、云骁、慧聚三大智算平台,AI云电脑以及基于天翼云智算云底座的星辰大模型等技术成果。

作为云服务国家队,天翼云没有拘泥于现有的技术和市场格局,而是以开放的心态和前瞻的视野,积极探索和引领云计算和AI领域的新趋势。基于丰富的智算资源储备、强大的智算服务能力以及开放的模型应用社区,天翼云正在加速布局全新的智算云生态,为千行百业向智、向新发展注入国云力量。