腾讯 AI Lab 高级研究员宋林：基于大型语言模型对话指导视觉交互 GPT4Tools｜大型语言模型技术公开课04

「大型语言模型技术公开课」由智东西公开课教研组全新出品，将持续邀请 LLM 领域的技术大牛和科研人员，对开源的大模型语言模型及其背后的技术细节以视频直播形式进行深入讲解。

在这一季，潞晨科技技术 VP 柳泓鑫、新加坡国立大学在读博士张傲、香港科技大学在读博士刁诗哲和腾讯 AI LAB 高级研究员宋林四位主讲人，将先后针对 ColossalChat、VPGTrans、LMFlow，以及 GPT4Tools 这四个开源项目带来讲解和答疑。

6月8日晚6点，腾讯 AI Lab 高级研究员宋林将带来「大型语言模型技术公开课」第四讲的直播，主讲《基于大型语言模型对话指导视觉交互 GPT4Tools》。

GPT4Tools 是一个集中式的控制系统，可以控制使用多个基础视觉模型。它基于 LLaMA 和自己构建的 71k instruction 数据。通过分析语言内容，GPT4Tools 能够自动决定、控制和利用不同的基础视觉模型，允许用户在对话中与图像交互。该方法是通过 self-instruct 和 LoRA 来微调 LLM 使之能够使用简单的工具。

GTP4Tools 主要是通过 self-instruct 和 LoRA 来微调 LLM 使之能够使用简单的工具，其中主要包含三部分：用于指令的 LLM、用于自适应的 LoRA 和用于提供功能的 Visual Agent。它是一个灵活且可扩展的系统，可以轻松扩展以支持更多工具和功能。例如，用户可以用自己的模型替换现有的 LLM 或工具，或者向系统添加新工具。用户唯一需要做的就是使用提供的指令微调 LoRA，并教会 LLM 使用提供的工具。

在这一讲，宋林首先将介绍大语言模型使用工具能力的发展，之后重点分析 GPT4Tools 的结构，并讲解其使用开源语言模型的能力，同时也会进行 Demo 展示。最后，他也会探讨 GPT4Tools 的潜在应用。

第四讲

主题
《基于大型语言模型对话指导视觉交互 GPT4Tools》

提纲
1、大语言模型使用工具能力的发展
2、基于 GPT4Tools 使用开源语言模型能力
3、在线 Demo 展示和架构分析
4、定量实验分析与潜在应用

主讲人
宋林，腾讯 AI Lab 高级研究员；2022年7月获得西安交通大学人工智能学院博士学位，师从孙剑、孙宏滨；研究兴趣主要集中在计算机视觉、机器学习和集成电路；曾在 ICLR、CVPR、NeurIPS 上发表多篇论文。

直播时间
6月8日18:00

相关推荐