香港科技大学在读博士刁诗哲:低成本训练专属 ChatGPT 的开源框架 LMFlow

「大型语言模型技术公开课」由智东西公开课教研组全新出品,将持续邀请 LLM 领域的技术大牛和科研人员,对开源的大模型语言模型及其背后的技术细节以视频直播形式进行深入讲解。

在这一季,潞晨科技技术 VP 柳泓鑫、新加坡国立大学在读博士张傲、香港科技大学在读博士刁诗哲和腾讯 AI LAB 高级研究员宋林四位主讲人,将先后针对 ColossalChat、VPGTrans、LMFlow,以及 GPT4Tools 这四个开源项目带来讲解和答疑。

6月5日晚7点,香港科技大学在读博士刁诗哲将参与到「大型语言模型技术公开课」第三讲的直播中,主讲《低成本训练专属 ChatGPT 的开源框架 LMFlow》。

ChatGPT 的出现,让许多人开始对科研的方向和未来感到迷茫:如何能够参与到通用人工智能的研究中,在这个大型模型横行的时代找到自己的优势?很多人也都希望有能力训练一个只属于自己的 AI 大模型。现阶段尽管已经有很多开源的类 GPT 产品,但对于普通的学者、研究人员和程序员来说,这样的产品仍不足以适应每一个人的需求。

不仅仅是因为从头预训练的高昂成本,也是因为基于 API 的黑盒封装不是完美的解决方案。基于 API 的应用虽然很容易开发,但从使用效果和自定义程度上来说并不尽人意。因此,从头预训练和基于 API 开发都不是最佳方式。

来自香港科技大学统计和机器学习实验室团队的研究人员发起的 ChatGPT 平替开源方案「LMFlow」 ,可以帮助个人和中小企业解决上述问题,即在低成本的情况下微调出一个垂直领域、个性化的专属ChatGPT,从而满足自己的需求。

针对有限的计算资源,通过 LMFlow 开源库,基于LLaMA-7B,只需 1 张 3090、耗时 5 个小时,就可以训练一个专属于自己的个性化 GPT,并完成网页端部署。该团队还利用 LMFlow 单机训练了一个 330 亿参数的 LLaMA 中文版,并且对模型权重进行了开源,用于学术研究。

在这一讲,刁诗哲首先会比较当前不同的大模型微调开源框架,帮助大家选择适合自己需求的框架,之后深度讲解低成本微调全流程框架 LMFlow,以及全新、高效、稳定的对齐算法 RAFT。最后,他也会分享一个支持多模态复杂推理和目标检测的微调方案 DetGPT。这些工具的使用能够帮助个人和中小企业在低成本的情况下微调出一个垂直领域、个性化的专属 ChatGPT,从而满足自己的需求。

第三讲

主 题
《低成本训练专属 ChatGPT 的开源框架 LMFlow》

提 纲
1、大模型微调开源框架对比
2、低成本微调全流程框架 LMFlow
3、全新的对齐算法 RAFT 解析
4、支持多模态复杂推理和目标检测的微调方案 DetGPT

主 讲 人
刁诗哲,香港科技大学在读博士;曾在字节跳动人工智能实验室、创新工场人工智能研究院实习;主要研究方向是大模型的预训练、高效调优和领域自适应。曾在TMLR、ICLR、ICML、ACL、EMNLP、WWW发表多篇论文。

直 播 时 间
6月5日19:00