
4月1日-2日,2025中国生成式AI大会(北京站)「GenAICon 2025北京站」将在北京中关村东升科技园万丽酒店盛大举办。中国生成式AI大会已成功举办三届,现已成为国内人工智能领域最具影响力的产业峰会之一。
本次大会继续由智一科技旗下智猩猩、智东西共同发起,以“大拐点 新征程”为主题,邀请到50+位重量级嘉宾同台分享和交锋,深入解构DeepSeek引发的变革狂潮,全面展示国内生成式AI重大进展。大会也是“智领未来”北京人工智能系列活动之一。
大会主会场首日将进行开幕式、GenAI应用论坛,次日全天将进行大模型峰会;分会场则会先后组织DeepSeek R1与推理模型技术研讨会、AI智能体技术研讨会和具身智能大模型技术研讨会。其中,三场研讨会为闭门制,主要面向持有闭门专享票、贵宾通票的观众开放。
作为本次大会的三场技术研讨会之一,具身智能大模型技术研讨会将在4月2日下午进行,由主题报告和圆桌Panel两个环节组成。
目前邀请到北京智源人工智能研究院研究员郝孝帅,北京大学在读博士、RoboMamba一作刘家铭,清华大学ISRLab在读博士生、星动纪元实习研究员郭彦江,清华大学TSAIL团队博士生、RDT一作刘松铭,上海人工智能实验室具身智能中心青年研究员汪汗青,群核科技科研算法专家汪仁涵6位来自学术界和工业界的青年学者和技术专家带来主题报告。
圆桌Panel环节由郝孝帅老师、刘家铭博士、郭彦江博士、汪汗青老师以及光轮智能具身数据交付负责人甘宇飞5位嘉宾参与,其中,郭彦江博士作为特邀主持,主持研讨会及圆桌Panel环节。
郝孝帅老师将为本次研讨会带来开场报告。郝孝帅老师目前是智源研究院的具身多模态大模型研究员,曾在CVPR和ICCV等顶级会议上获得6项国际前3名的成绩。本次报告将重点讲解北大联合智源研究院、港大等提出的统一具身多模态大脑模型RoboBrain。该模型首次实现了任务规划-可操作区域感知-轨迹预测的三维能力融合,相关论文已收录于CVPR 2025顶会。
北京大学联合智平方、BAAI推出了高效的端到端VLA具身大模型RoboMamba,仅需调整0.1%的模型参数就能掌握操作技能,推理速度比现有VLA模型快3倍。刘家铭博士是RoboMamba一作,论文已收录于NeurIPS 2024。本次研讨会刘家铭博士将从VLA 模型的输入方式、VLA架构设计、VLA训练策略、VLA输出机制这四个方面进行深入讨论,详解RoboMamba。
清华大学ISRLab在读博士生、星动纪元实习研究员郭彦江师从陈建宇教授。郭彦江博士参与的论文成果Advancing Humanoid Locomotion曾获RSS 2024最佳论文提名奖。本次研讨会郭博士将探讨如何基于视频世界模型构建通用的机器人操作策略,具体包括收录于NeurIPS 2024顶会的成果Prediction with Action(PAD),以及Video Prediction Policy(VPP)等两项成果。
清华大学TSAIL团队开源的扩散基座模型RDT,拥有模型参数量1.2B,是目前最大的用于用于双臂机器人操作的扩散基座模型,还曾登顶HF具身热榜。刘松铭博士是RDT一作,研究方向是具身智能和AI for Science。本次研讨会刘松铭博士将以《双臂机器人操作扩散大模型RDT》为主题带来报告。
今年2月,上海AI Lab发布通用具身智能仿真平台桃源2.0。在首个城市级大规模仿真平台桃源1.0的基础上,桃源2.0全新升级,具备大规模数据生产能力,数据采集方式实现了三大方面的革新,并可以多样化和易用性适配多类型机器人。汪汗青老师作为主要负责人带领实验室团队开发了桃源,提出了虚实贯通技术框架以系统化解决现存问题,以桃源2.0平台作为关键纽带,构建了”真实-仿真-真实”闭环技术路径。
3月19日,被称为“杭州六小龙”之一群核科技自主研发的空间理解模型SpatialLM正式开源。该模型突破了大语言模型对物理世界几何与空间关系的理解局限,为具身智能提供空间理解基础训练框架。而群核空间智能解决方案SpatialVerse与SpatialLM模型之间协同合作,打通了”真实-仿真-真实” 的闭环路径,为智能体提供无限迭代的感知-决策-行动闭环训练,驱动具身智能从“有限训练”迈向“无限进化。本次研讨会群核科技科研算法专家汪仁涵将带来报告,主题为《打破数据之困,让具身智能走进物理世界》。
一、具身智能大模型技术研讨会议程
二、报告嘉宾及主题概要介绍
报告嘉宾:北京智源人工智能研究院研究员 郝孝帅
报告主题:统一具身多模态大脑模型RoboBrain
内容概要:本次报告我将从以下两方面进行解读:
(1)我们提出了ShareRobot,一个大规模、高质量、细粒度的异构数据集,涵盖102个场景、12种机器人本体和107种原子任务,包含百万级问答对。数据集标注了任务规划、对象可操作区域和末端执行器轨迹等多维信息,填补了现有数据在多样性、粒度和任务复杂性上的不足,为机器人学习与规划提供了全面支持。
(2)基于ShareRobot,我们提出了RoboBrain,一个统一具身多模态大脑模型,首次实现任务规划-可操作区域感知-轨迹预测的三维能力融合。RoboBrain将抽象指令(如“准备一杯茶”)映射为具象动作序列(如抓取、对准、倾倒),并同步生成可操作区域与精确轨迹,显著提升机器人在具身长程操作任务中的能力。该模型通过多模态协同,解决了传统方法在任务分解、感知与动作生成中的割裂问题,为复杂机器人操作提供了全新解决方案。
报告嘉宾:北京大学在读博士、 Robomamba一作 刘家铭
报告主题:构建鲁棒且高效的视觉-语言-动作大模型RoboMamba
内容概要:本报告旨在探讨如何构建更 鲁棒且高效 的 视觉-语言-动作(VLA)大模型,并从以下四个方面展开深入讨论:1)VLA 模型的输入方式,2)VLA架构设计,3)VLA训练策略,4)VLA输出机制。同时,我们还将分析当前行业内 VLA 发展的最新趋势,并介绍自研的 高效 VLA 模型—RoboMamba。具体来说,RoboMamba是一个高效的端到端VLA具身大模型,专为机器人场景优化设计,旨在实现高效的推理与操作能力。这一成果以题为《RoboMamba:具备机器人推理与操控能力的高效视觉-语言-动作大模型》的论文,发表在全球顶级学术会议NeurIPS 2024上。
报告嘉宾:清华大学ISRLab在读博士生、星动纪元实习研究员 郭彦江
报告主题:基于世界模型的通用机器人策略学习
内容概要:构建通用的操作模型是通用机器人最有挑战性的一个部分,机器人需要具备丰富的物理先验知识,才能泛化到新任务。视频生成大模型在互联网视频数据上进行了大规模预训练,能够预测合理的未来发展轨迹,压缩了丰富的物理先验知识。本次演讲主题是如何基于视频世界模型构建通用的机器人操作策略,具体包括Prediction with Action(PAD),Video Prediction Policy(VPP)等两项工作。
报告嘉宾:清华大学TSAIL团队博士生、RDT一作 刘松铭
报告主题:双臂机器人操作扩散大模型RDT
内容概要:我们提出了一种用于双臂机器人操作的扩散基座模型——Robotics Diffusion Transformer(RDT),该模型以扩散模型作为基础,能够有效地表示多峰的人类动作分布,并采用可扩展的Transformer架构来处理异构的多模态输入,捕捉机器人数据中的非线性和高频特性。为了解决数据稀缺问题,文章进一步引入了一种物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,并保留原始动作的物理含义,方便学习可迁移的物理知识。通过这些设计,我们成功地在目前(截止文章公布时,下同)最大的多机器人数据集上对RDT进行了预训练,并将其扩展到12亿个参数,这是目前用于机器人操作的最大的基于扩散建模的基础模型。最后,我们在一个自己收集的多任务双臂数据集上对RDT进行了微调,以提高其双臂操作能力。在真实机器人实验中,RDT明显优于现有方法。它能够零样本泛化到未见过的物体和场景,理解和遵循语言指令,仅需1~5个演示就能学习新的技能,并有效地处理复杂的灵巧任务。该项目的代码、模型和数据均已开源,请访问项目主页https://rdt-robotics.github.io/rdt-robotics/。
报告嘉宾:上海人工智能实验室具身智能中心青年研究员 汪汗青
报告主题:桃源2.0推动通用具身智能迈向虚实贯通之路
内容概要:在实现通用具身智能所面临的关键挑战中,首当其冲的是可用数据的稀缺问题:底层海量互联网数据存在质量低、标注缺失等问题;顶层的同构真机数据成本极高,且存在多样性问题。仿真数据虽具理论无限性,却受限于数字资产、专家演示和虚实鸿沟难题。针对上述问题,我们提出”虚实贯通”技术框架以系统化解决现存问题,通过”桃源(GRUtopia)2.0″平台作为关键纽带,构建了”真实-仿真-真实”闭环技术路径。桃源2.0具有以下特性:
– 模块化仿真框架:支持导航、操作、运动控制等全任务类型,通过”三行代码”快速定义具身任务,实现多任务开发平台统一;
– 智能场景生成:集成十万级场景库与百万级物体库,结合自动化生成与随机化工具,实现复杂场景一键构建与数据无限扩增;
– 高效数据工场:提供操作/全身控制遥操作工具与导航批量化采集系统,单机单日可获取15,000条高质量导航轨迹,大幅降低多元数据采集门槛。
我们通过一系列实验验证了“虚实贯通”技术框架在突破仿真内容生产瓶颈的同时能够有效弥合虚实鸿沟。相信通过相关模型、工具链的研发和开源开放,我们能够和具身智能领域的研究人员共同探索一条新的通往通用具身智能的降本增效路径。
报告嘉宾:群核科技科研算法专家 汪仁涵
报告主题:打破数据之困,让具身智能走进物理世界
内容概要:数据生成能力是具身AI的“创新引擎”!如何赋予AI跨模态认知与未知环境自适应能力,为智能体提供无限迭代的感知-决策-行动闭环训练,驱动具身智能从“有限训练”迈向“无限进化”。
报告嘉宾:光轮智能具身数据交付负责人 甘宇飞
嘉宾介绍:甘宇飞现任光轮智能具身数据交付负责人,负责从资产生产、场景搭建、遥操作数据采集到算法验证的全流程质量控制,保障具身资产合成技术方案的可行性及规模化落地。他在合成数据技术领域拥有丰富实践经验,技术方案曾覆盖互联网、自动驾驶及具身智能等方向。加入光轮前,甘宇飞曾担任蔚来汽车4D BEV自动标注负责人,在蚂蚁集团作为某海外事业线算法团队负责人。
三、报名方式
具身智能大模型技术研讨会将在大会次日分会场下午进行,主要向持有闭门专享票、贵宾通票的观众开放。
希望参加研讨会的朋友,可以扫描下方二维码,添加小助手“泡泡”咨询和购票。已添加过“泡泡”的老朋友,给“泡泡”私信,发送“GenAICon25”即可。
除了闭门专享票、贵宾通票,大会还设有主会场观众票、主会场VIP票,在主会场的座位分布如下。有需要的朋友可以进行免费申请或购买。