新加坡国立大学NExT++实验室在读博士吴胜琼：NExT-GPT——端到端通用多模态大语言模型｜AI新青年讲座

今年9月起，智东西公开课品牌全新升级为智猩猩。智猩猩定位硬科技讲解与服务平台，提供公开课、在线研讨会、讲座、峰会等线上线下产品。

「AI新青年讲座」由智猩猩出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」现已完结230讲；有兴趣分享学术成果的朋友，可以与智猩猩教研产品团队进行邮件（class@zhidx.com）联系。

近来，多模态大语言模型已经取得了令人振奋的成果。然而，现有多模态大语言模型仍主要集中在对输入端进行多模态理解，而输出端仍受限于文本内容。相较之下，人类在沟通时具备理解和感知各种模态的能力，并能够以灵活的方式输出各类模态的回复。因此，构建能够接受和传递任何模态内容的系统，是实现类人水平的人工智能中至关重要的一步。

为了实现这一目标，来自新加坡国立大学 NExT++ 实验室的研究者提出了一种端到端的通用的任意到任意多模态大语言模型系统，即 NExT-GPT。通过引入一个轻量级对齐网络，将一种大语言模型与多模态适配器和下游扩散解码器连接起来，使 NExT-GPT 能够感知文本、图像、视频和音频，并灵活地生成任意模态的输出。

此外，研究者还提出了基于模态切换的指令微调（Modality-switching Instruction-tuning，MosIT），并构建了一个基于 MosIT 的高质量数据集。最终，实现了复杂的跨模态语义理解和内容生成的能力。

12月14日晚19点，「AI新青年讲座」第231讲邀请到 NExT-GPT 一作、新加坡国立大学 NExT++ 实验室在读博士吴胜琼参与，主讲《NExT-GPT：端到端通用多模态大语言模型》。

讲者
吴胜琼，新加坡国立大学在读博士；导师为 Chua Tat-seng 教授；研究方向为自然语言处理、多模态学习以及大模型；目前在自然语言处理、多模态学习以及机器学习等顶级会议上发表了多篇 CCF A 类论文，如NeurIPS、ACL、ACM MM、AAAI、IJCAI；其中 “NExT-GPT”获得了全球 AI 社区广泛的关注和认可，所开源的代码和模型获得了超过2千星标；曾获得新加坡立大学校长奖学金、新加坡立大学研究成就奖、国家奖学金（中国）、华为奖学金、优秀硕士毕业生等。

第231讲

主题
《NExT-GPT：端到端通用多模态大语言模型》

提纲
1、多模态大语言模型的发展
2、模态自由的全能型多模态大语言模型 NExT-GPT
3、基于模态切换的指令微调技术
4、复杂的跨模态理解和内容生成

直播信息
直播时间：12月14日19:00
直播地点：智东西公开课知识店铺

成果
论文标题：《NExT-GPT: Any-to-Any Multimodal LLM》
论文地址：https://arxiv.org/abs/2309.05519
开源代码：https://github.com/NExT-GPT/NExT-GPT

相关推荐