「大型语言模型技术公开课」由智东西公开课教研组全新出品,将持续邀请 LLM 领域的技术大牛和科研人员,对开源的大模型语言模型及其背后的技术细节以视频直播形式进行深入讲解。
在这一季,潞晨科技技术 VP 柳泓鑫、新加坡国立大学在读博士张傲、香港科技大学在读博士刁诗哲和腾讯 AI LAB 高级研究员宋林四位主讲人,将先后针对 ColossalChat、VPGTrans、LMFlow,以及 GPT4Tools 这四个开源项目带来讲解和答疑。
5月29日晚7点,新加坡国立大学在读博士张傲将带来「大型语言模型技术公开课」第二讲的直播,讲解的主题为《10%成本定制类 GPT-4 多模态对话模型》。
GPT-4、BLIP-2、Flamingo 等多模态(对话)大模型的出现,将大语言模型的强大能力扩展到多模态输入,实现了强大的多模态语义理解。然而,训练一个多模态对话模型往往需要成百上千块 GPU、以及很长时间和上亿的数据。
针对多模态(对话)大模型,来自新加坡国立大学、清华大学的研究者们开源了一个 VPGTrans 框架,可以将已有的 BLIP-2 OPT-6.7B 模型的训练开销由 17901 元缩减到 1673 元,且模型效果相仿或更好。
同时,在近期新放出的语言模型 LLaMA 和 Vicuna 上,研究者们也对 VPGTrans 进行了验证 ,构建并开源了 VL-LLaMA 和 VL-Vicuna 模型。其中,VL-Vicuna 模型可以进行高质量的多模态对话。
在这一讲,张傲首先会对新一代的多模态大模型进行梳理,之后深度讲解类 GPT4 多模态模型构建框架 VPGTrans 及其原理。最后,他也会对 VPGTrans 的两个应用实例:开源 VL-LLaMA 和 VL-Vicuna 进行解读。
第二讲
主 题
《10%成本定制类 GPT-4 多模态对话模型》
提 纲
1、新一代多模态大模型概述
2、类 GPT4 多模态模型构建框架 VPGTrans
3、VPGTrans重点实验解析
4、VPGTrans应用实例:开源 VL-LLaMA 和 VL-Vicuna
主 讲 人
张傲,新加坡国立大学在读博士;研究方向为多模态学习,导师为Chua Tat-Seng;曾在 ICCV、ECCV、EMNLP 等顶会发表多篇论文;代表工作有超大规模场景图生成方法 IETrans (ECCV 2022 Oral),多模态提示学习方法 colorful prompt tuning (CPT)。
直 播 时 间
5月29日19:00