大模型训练框架Megatron-LLaMA开源发布

2023-09-12

智东西9月12日消息，据机器之心报道，今日，淘天集团联合爱橙科技正式开源发布大模型训练框架Megatron-LLaMA，旨在让开发者更方便地提升大语言模型训练性能，降低训练成本，并且保持和Llama社区的兼容性。测试显示，在32卡训练上，相比HuggingFace上直接获得的代码版本，Megatron-LLaMA能够取得176%的加速；在大规模训练上，Megatron-LLaMA相比较32卡拥有几乎线性的扩展性，而且对网络不稳定表现出高容忍度。

开源地址：

https://github.com/alibaba/Megatron-LLaMA

淘天集团