智东西9月12日消息,据机器之心报道,今日,淘天集团联合爱橙科技正式开源发布大模型训练框架Megatron-LLaMA,旨在让开发者更方便地提升大语言模型训练性能,降低训练成本,并且保持和Llama社区的兼容性。测试显示,在32卡训练上,相比HuggingFace上直接获得的代码版本,Megatron-LLaMA能够取得176%的加速;在大规模训练上,Megatron-LLaMA相比较32卡拥有几乎线性的扩展性,而且对网络不稳定表现出高容忍度。
开源地址:
https://github.com/alibaba/Megatron-LLaMA