「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结220讲;有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

大语言模型已经给自然语言处理领域带来了新的革命。在计算机视觉领域,Meta AI近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。

来自 OPPO 研究院、IDEA研究院的研究者们最新开源了一个视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力。RAM 为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。


RAM 可以以较高的准确率自动识别超过 6400 类的图像标签,横跨学术数据集和商业化产品,并根据其 Open-Set 能力覆盖任意标签类别。

7月27日晚7点,「AI新青年讲座」第221讲邀请到 RAM 一作、OPPO 研究院研究实习生、复旦大学在读博士黄新宇参与,主讲《视觉感知新范式——万物识别大模型 RAM》。

讲者
黄新宇复旦大学在读博士,同时是 OPPO 研究院研究实习生,并与粤港澳大湾区数字经济研究院保持密切合作;研究方向为多模态学习与图像视觉理解,提出的 Recognize Anything(RAM)模型是目前最强的开源图像识别模型。

主 题
《视觉感知新范式——万物识别大模型 RAM》

提 纲
1、图像分割大模型 SAM 概述
2、现有检测、分割模型的局限性
3、开源图像识别大模型 RAM
4、泛化训练及未来研究探讨

直 播 信 息
直播时间:7月27日19:00
直播地点:智东西公开课知识店铺

成果
论文标题:《Recognize Anything: A Strong Image Tagging Mode》
论文地址:https://arxiv.org/pdf/2306.03514.pdf
代码地址:https://github.com/xinyu1205/recognize-anything
Huggingface Demo:https://huggingface.co/spaces/xinyu1205/recognize-anything