大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools

去年11月起,智东西公开课教研组开始关注大模型的开发和应用,并曾策划推出「大模型系列直播课」,邀请了联汇科技首席科学家赵天成博士、一流科技 LiBai项目负责人程鹏、潞晨科技创始人尤洋教授,以及北京面壁智能联合创始人&CTO曾国洋四位主讲人对大模型技术进行了深度讲解。

也是去年的11月底,现象级产品 ChatGPT 横空出世,让人们看到了大型语言模型的涌现能力,更是让国内外诸多高校、研究机构和企业都开始了类 ChatGPT 的研发。之后,图文多模态 GPT-4 的出现,将 ChatGPT 的能力进一步提升,又让大型语言模型进入了多模态的时代。

然而 OpenAI 并不 Open,无论是 ChatGPT 还是 GPT-4 都没有开源,复现的难度也极大。对于大型科技企业来说,自研 LLM 成为了不可避免的一条路。而对于缺少算力和资金的中小企业以及希望基于 LLM 开发衍生产品的开发者来说,选择开源平替方案显然是更理想的一条路线。

围绕 LLaMA 等开源模型,整个开源社区正在迅速的构建与 ChatGPT 能力类似的模型,并且在快速的迭代着。这些开源模型的效果具有更强的可定制性,并且可以免费使用。

为了让大家更好的了解学习这些开源的大型语言模型,并能拥有属于自己的 ”ChatGPT“。从5月起,智东西公开课教研组将「大模型系列直播课」升级为「大型语言模型技术公开课」。

「大型语言模型技术公开课」由智东西公开课教研组全新出品,将持续邀请 LLM 领域的技术大牛和科研人员,对开源的大模型语言模型及其背后的技术细节以视频直播形式进行深入讲解。

在这一季,潞晨科技技术 VP 柳泓鑫、新加坡国立大学在读博士张傲、香港科技大学在读博士刁诗哲和腾讯 AI LAB 高级研究员宋林四位主讲人,将先后针对 ColossalChat、VPGTrans、LMFlow,以及 GPT4Tools 这四个开源项目带来讲解和答疑。

第一讲|潞晨科技技术 VP 柳泓鑫:基于 Colossal-AI 低成本复现 ChatGPT

ColossalChat 是潞晨科技在建立了包含监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调的完整 RLHF 流程的基础上,所推出的一个 ChatGPT 开源平替方案,也是首个最接近 ChatGPT原始技术方案的实用开源项目,并且还显著的降低了显存需求,加快了训练推理速度,以低成本实现类 ChatGPT 的落地与应用。目前 ColossalChat 已支持支持单卡、单机多卡、1750 亿参数等多个版本,用户可以从 Hugging Face 导入 GPT-3,BLOOM 等多种预训练大模型。

ColossalChat开源地址:https://github.com/hpcaitech/ColossalAI/tree/main/applications/Chat

第二讲|新加坡国立大学在读博士张傲:10%成本定制类 GPT-4 多模态对话模型

针对多模态(对话)大模型,来自新加坡国立大学、清华大学的研究者们开源了一个VPGTrans框架,可以将已有的 BLIP-2 OPT-6.7B 模型的训练开销由 17901 元缩减到 1673 元,且模型效果相仿或更好。同时,在近期新放出的语言模型LLaMA和Vicuna上也验证了 VPGTrans,构建并开源了 VL-LLaMA 和 VL-Vicuna 模型。其中,VL-Vicuna 模型可以进行高质量的多模态对话。

VPGTrans开源地址:https://vpgtrans.github.io/

第三讲|香港科技大学在读博士刁诗哲:低成本训练专属 ChatGPT 的开源框架 LMFlow

LMFlow是由香港科技大学统计和机器学习实验室团队发起又一个ChatGPT平替开源方案。LMFlow可以帮助个人和中小企业在低成本的情况下微调出一个垂直领域、个性化的专属ChatGPT,从而满足自己的需求。针对有限的计算资源,通过LMFlow开源库,基于LLaMA-7B,只需 1 张 3090、耗时 5 个小时,就可以训练一个专属于自己的个性化 GPT,并完成网页端部署。该团队已经利用LMFlow单机训练了一个 330 亿参数的 LLaMA 中文版,并且对模型权重进行了开源,用于学术研究。

LMFlow开源地址:https://github.com/OptimalScale/LMFlow

第四讲|腾讯 AI Lab 高级研究员宋林:基于大型语言模型对话指导视觉交互 GPT4Tools

来自腾讯 AI Lab、香港中文大学的研究者们最新开源的 GPT4Tools,基于 LLaMA 和自己构建的 71k instruction 数据,通过 self-instruct 和 LoRA 来微调,在分析语言内容后可以自动决定、控制和利用不同的基础视觉模型,允许用户在对话中与图像交互。让使用工具插件不必再通过 GPT-4 来实现!

GPT4Tools 开源地址:https://github.com/StevenGrove/GPT4Tools