复旦大学在读博士黄新宇：视觉感知新范式——万物识别大模型 RAM｜AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结220讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

大语言模型已经给自然语言处理领域带来了新的革命。在计算机视觉领域，Meta AI近期推出的Segment Anything Model（SAM）工作，在视觉定位（Localization）任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型，并没有识别（Recognition）能力，而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位，却在两个任务上都不能达到极致。

来自 OPPO 研究院、IDEA研究院的研究者们最新开源了一个视觉感知大模型Recognize Anything Model（RAM），提供最强的图像识别能力。RAM 为图像识别领域提供了一种新的范式，使用海量无需人工标注的网络数据，可以训练出泛化能力强大的通用模型，甚至在垂域下可以超越人工标注训练的有监督模型。

RAM 可以以较高的准确率自动识别超过 6400 类的图像标签，横跨学术数据集和商业化产品，并根据其 Open-Set 能力覆盖任意标签类别。

7月27日晚7点，「AI新青年讲座」第221讲邀请到 RAM 一作、OPPO 研究院研究实习生、复旦大学在读博士黄新宇参与，主讲《视觉感知新范式——万物识别大模型 RAM》。

讲者
黄新宇复旦大学在读博士，同时是 OPPO 研究院研究实习生，并与粤港澳大湾区数字经济研究院保持密切合作；研究方向为多模态学习与图像视觉理解，提出的 Recognize Anything（RAM）模型是目前最强的开源图像识别模型。

主题
《视觉感知新范式——万物识别大模型 RAM》

提纲
1、图像分割大模型 SAM 概述
2、现有检测、分割模型的局限性
3、开源图像识别大模型 RAM
4、泛化训练及未来研究探讨

直播信息
直播时间：7月27日19:00
直播地点：智东西公开课知识店铺

成果
论文标题：《Recognize Anything: A Strong Image Tagging Mode》
论文地址：https://arxiv.org/pdf/2306.03514.pdf
代码地址：https://github.com/xinyu1205/recognize-anything
Huggingface Demo：https://huggingface.co/spaces/xinyu1205/recognize-anything

相关推荐