近日,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint大模型Checkpointing系统,旨在提升大模型训练效率、减少训练进度损失。

随着训练规模与模型大小的日益增长,克服软硬件故障,提高训练效率成为大模型迭代的重要影响要素。近期,Meta官方报告中披露的一组大模型万卡集群训练故障率数据引起业内广泛关注,数据显示:在 16384 块 H100 80GB 训练集群上进行 Llama3 405B 训练的故障率——短短 54 天,发生 419 次中断,平均每三小时崩溃一次。该报告同时提到,为了对抗高故障率,需要在训练过程中频繁地进行 Checkpoint ,保存训练中的模型、优化器、数据读取器状态,减少训练进度损失。可以说Checkpoint 已成为训练提效关键。

然而,现有的 Checkpoint 相关技术存在诸多问题,如系统设计缺陷导致额外的 I/O 开销增加、不同训练框架的 Checkpoint 模块相互割裂等。

豆包大模型团队和香港大学此次联合提出的ByteCheckpoint能有效解决上述问题。ByteCheckpoint为PyTorch 原生,能兼容多个训练框架,支持Checkpoint的高效读写和自动重新切分。与基线方法相比,ByteCheckpoint 在 Checkpoint 保存上性能提升高达 529.22 倍,在加载上,性能提升高达 3.51 倍。极简的用户接口和 Checkpoint 自动重新切分功能,显著降低了用户上手和使用成本,提高了系统的易用性。目前论文成果已公开:

  • ByteCheckpoint: A Unified Checkpointing System for LLM Development
  • 论文链接:https://team.doubao.com/zh/publication/bytecheckpoint-a-unified-checkpointing-system-for-llm-development?view_from=research

字节跳动豆包大模型团队成立于2023年,致力于开发业界最先进的AI大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。目前,豆包大模型团队正在持续吸引优秀人才加入,希望与具备创新精神、责任心的技术人才一起,推进大模型训练提效工作取得更多进展和成果。

据了解,豆包大模型于2024年5月正式发布,现已通过字节跳动旗下云服务平台火山引擎面向企业提供服务。截至7月,豆包大模型日均Tokens使用量已超5000亿,外部企业客户日均Tokens使用量较5月15日模型发布时期增长22倍。基于豆包大模型打造的同名AI智能助手豆包,在各大应用商店AI类产品的下载量排名第一。