随着数据和模型规模的大幅扩展,大型语言模型(LLMs)的基础模型已经取得了显著的成功。很多模型通过零/少样本学习,而无需大量的任务特定数据或模型参数更新,就能拥有先进的能力,包括语言理解、生成、推理和与代码相关的任务。

视觉任务不同于语言任务,很难找到一种封闭定义去囊括所有的任务形式。那么,视觉任务的终局是什么?有没有可能做到像现在语言任务的大一统?同时,在这个大模型、多模态等前沿领域快速更新迭代的时代,研究者们又该如何在紧跟日新月异的技术发展潮流的同时,做出有自己特色的研究呢?

8月30日晚7点,智东西公开课推出「大规模视觉基础模型在线研讨会」。研讨会由南开大学副教授李翔博士参与出品。李翔博士入选了南开大学百青计划、博士后创新人才支持计划,在 CVPR、NeurIPS 及权威期刊 TPAMI 等上发表40余篇学术论文,谷歌学术总引用达7400余次,合作提出的 PVT 模型入选 ICCV21 Top-10 最具影响力工作(排名第二,第一名为马尔奖Swin Transformer)。

本次研讨会,香港中文大学博士后王文海、微软亚洲研究院研究员宋恺涛和南京理工大学在读博士杨凌风三位青年学者将参与主讲。他们将分别围绕主题《“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探》、《基于 ChatGPT + Hugging Face 解决复杂人工智能任务》和《大型视觉语言模型的细粒度视觉提示及局部定位识别》进行深度讲解。

出品人
李翔博士,南开大学计算机学院副教授;入选南开大学百青计划、博士后创新人才支持计划,主持国家自然科学青年基金,获江苏省人工智能学会优秀博士论文奖,CCF优秀博士论文提名奖;在CCF A 类会议CVPR、NeurIPS及权威期刊TPAMI等上发表40余篇学术论文,包括第一作者和通讯作者20余篇;谷歌学术总引用达7400余次,一作代表工作SKNet(CVPR19)引用1700余次;长期担任国际人工智能顶级会议AAAI、CVPR及权威期刊TPAMI、TIP、TMM审稿人,担任PRCV23领域主席,Image and Vision Computing期刊副主编。

主题介绍

香港中文大学博士后王文海:“大规模视觉基础模型 + LLM”在开放世界任务中的应用初探

近年来,以ChatGPT为代表的大规模语言模型已在自然语言处理开放世界任务中获得了极大的成功。然而,由于其受到模态的限制,这些模型在计算机视觉和视觉语言任务中的应用仍然受到限制。

在本次分享,我们将从大规模视觉基础模型开始,探讨视觉基础模型与大规模语言模型在以视觉为中心的开放世界任务中的应用。包括:(1)大规模视觉基础模型的构建和训练;(2)视觉基础模型和大规模语言模型在开放世界视觉交互系统中协同应用;(3)更灵活的大规模语言模型在开放世界视觉和视觉语言任务中的使用方法。

微软亚洲研究院研究员宋恺涛:基于 ChatGPT + Hugging Face 解决复杂人工智能任务

利用不同领域和模态的复杂人工智能任务是迈向先进人工智能的关键一步。虽然针对不同领域和模态存在大量的人工智能模型,但它们无法处理复杂的人工智能任务。考虑到大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出色的能力,我们认为 LLMs 可以充当控制器,管理现有的人工智能模型来解决复杂的人工智能任务,而语言可以作为通用接口来实现这一点。基于这一理念,我们提出了一个框架,利用 LLMs(例如ChatGPT)来连接机器学习社区中的各种人工智能模型(例如Hugging Face)来解决人工智能任务。

具体而言,我们使用 ChatGPT 在接收用户请求时进行任务规划,根据 Hugging Face 中可用的模型功能描述来选择模型,使用所选的人工智能模型执行每个子任务,并根据执行结果总结回应。通过充分利用 ChatGPT 的强大语言能力和 Hugging Face 中丰富的人工智能模型,我们的系统(即HuggingGPT)能够涵盖许多不同模态和领域的复杂人工智能任务,并在语言、视觉、语音和其他具有挑战性的任务方面取得令人印象深刻的结果,为迈向人工通用智能开辟了新的道路。

南京理工大学在读博士杨凌风:大型视觉语言模型的细粒度视觉提示及局部定位识别

大型视觉语言模型在多个图像层级的任务上取得优秀表现,但是其潜在的知识难以被应用于局部定位识别任务。现有的零样本迁移方法使用了视觉提示的策略,但是其提示设计存在不准确、引入噪声等问题。

我们通过流程图以及实例可视化展示了我们的解决方法,并在展示了在多个数据集上的实验结果。最后,我们对各个方法进行了有效性分析,并进行了视觉提示的结果可视化。