哥伦比亚大学在读博士有昊轩：Ferret——具备精确空间理解能力的多模态大模型｜AI新青年讲座

今年9月起，智东西公开课品牌全新升级为智猩猩。智猩猩定位「新科技」服务平台，聚焦人工智能与前沿科技，提供公开课、在线研讨会、讲座、峰会等线上线下产品。

「AI新青年讲座」由智猩猩出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」现已完结228讲；有兴趣分享学术成果的朋友，可以与智猩猩教研产品团队进行邮件（class@zhidx.com）联系。

大模型已经发展到这一步了？由苹果和哥伦比亚大学研究团队推出的最新多模态大模型“雪貂”（Ferret），能轻松找到图中所有交通信号灯，还准确圈出了具体位置，表现更是直接超越 GPT-4V。

哥伦比亚大学在读博士有昊轩：Ferret——具备精确空间理解能力的多模态大模型｜AI新青年讲座

引用（referring）和定位（grounding）是空间理解能力的基本体现。其中引用是让模型知道某一个位置上是什么，定位则可以让模型知道目标在哪。Ferret 的关键就是将引用和定位两种能力结合，并注入到多模态大模型中，使模型能够同时理解给定区域的语义和找到对应目标。

为了引用任意局部区域，研究者提出了一种新型的混合区域表示方法，能将离散坐标和连续特征联合起来表示图像中的区域。同时，他们还收集了一个1.1M大小的引用定位数据集，涵盖了物体类别，物体之间的关系，特定区域描述以及 ChatGPT 生成的复杂空间推理等。

此外，研究者还提出了 Ferret-Bench用来评估图像局部区域的引用/定位、语义、知识和推理能力。在传统任务和 Ferret-Bench上，Ferret 模型都表现优越。

哥伦比亚大学在读博士有昊轩：Ferret——具备精确空间理解能力的多模态大模型｜AI新青年讲座

11月3日上午10点，「AI新青年讲座」第229讲邀请到 Ferret 一作、哥伦比亚大学在读博士有昊轩参与，主讲《Ferret：具备精确空间理解能力的多模态大模型》。

讲者
有昊轩，美国哥伦比亚大学在读博士；导师为张世富教授（哥大工程学院院长，美国国家工程院院士）；研究兴趣为视觉语言理解和图像生成，在CVPR、ICLR、NeurIPS等会议上发表多篇论文，累计被引2500+次，曾在微软Azure AI、Google Research、Apple AI/ML实习。

第229讲

主题
《Ferret：具备精确空间理解能力的多模态大模型》

提纲
1、从 GPT-4V 看多模态大模型的研究
2、新型的混合区域表示方法
3、精确理解空间的多模态大模型 Ferret
4、Ferret-Bench 及现有 MLLM 的性能测试对比

直播信息
直播时间：11月3日10:00
直播地点：智猩猩知识店铺

成果
论文标题：《Ferret: Refer and Ground Anything Anywhere at Any Granularity》
论文地址：https://arxiv.org/pdf/2310.07704
开源代码：https://github.com/apple/ml-ferret