哥伦比亚大学在读博士有昊轩:Ferret——具备精确空间理解能力的多模态大模型 |AI新青年讲座

今年9月起,智东西公开课品牌全新升级为智猩猩。智猩猩定位「新科技」服务平台,聚焦人工智能与前沿科技,提供公开课、在线研讨会、讲座、峰会等线上线下产品。

「AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」现已完结228讲;有兴趣分享学术成果的朋友,可以与智猩猩教研产品团队进行邮件(class@zhidx.com)联系。

大模型已经发展到这一步了?由苹果和哥伦比亚大学研究团队推出的最新多模态大模型“雪貂”(Ferret),能轻松找到图中所有交通信号灯,还准确圈出了具体位置,表现更是直接超越 GPT-4V。

哥伦比亚大学在读博士有昊轩:Ferret——具备精确空间理解能力的多模态大模型 |AI新青年讲座

引用(referring)和定位(grounding)是空间理解能力的基本体现。其中引用是让模型知道某一个位置上是什么,定位则可以让模型知道目标在哪。Ferret 的关键就是将引用和定位两种能力结合,并注入到多模态大模型中,使模型能够同时理解给定区域的语义和找到对应目标。

为了引用任意局部区域,研究者提出了一种新型的混合区域表示方法,能将离散坐标和连续特征联合起来表示图像中的区域。同时,他们还收集了一个1.1M大小的引用定位数据集,涵盖了物体类别,物体之间的关系,特定区域描述以及 ChatGPT 生成的复杂空间推理等。

此外,研究者还提出了 Ferret-Bench用来评估图像局部区域的引用/定位、语义、知识和推理能力。在传统任务和 Ferret-Bench上,Ferret 模型都表现优越。

哥伦比亚大学在读博士有昊轩:Ferret——具备精确空间理解能力的多模态大模型 |AI新青年讲座

11月3日上午10点,「AI新青年讲座」第229讲邀请到 Ferret 一作、哥伦比亚大学在读博士有昊轩参与,主讲《Ferret:具备精确空间理解能力的多模态大模型》。

讲者
有昊轩,美国哥伦比亚大学在读博士;导师为张世富教授(哥大工程学院院长,美国国家工程院院士);研究兴趣为视觉语言理解和图像生成, 在CVPR、ICLR、NeurIPS等会议上发表多篇论文,累计被引2500+次,曾在微软Azure AI、Google Research、Apple AI/ML实习。

第229讲

主 题
《Ferret:具备精确空间理解能力的多模态大模型》

提 纲
1、从 GPT-4V 看多模态大模型的研究
2、新型的混合区域表示方法
3、精确理解空间的多模态大模型  Ferret
4、Ferret-Bench 及现有 MLLM 的性能测试对比

直 播 信 息
直播时间:11月3日10:00
直播地点:智猩猩知识店铺

成果
论文标题:《Ferret: Refer and Ground Anything Anywhere at Any Granularity》
论文地址:https://arxiv.org/pdf/2310.07704
开源代码:https://github.com/apple/ml-ferret