2024年已行进尾声，但对于生成式AI而言，这又是波澜壮阔的一年。Sora掀起视频生成热潮，多模态世界模型的研究热度渐起。更具革命性的推理模型o1悄然出世，带来的思维链CoT+强化学习这一新范式，正推动生成式AI迈入新的阶段。

大语言模型仍在狂飙，但价格战、营销战硝烟燃起，融资热度正在降温。不过行业赋能持续进行，应用层的兴起更加受到期待。同时，大模型向边端下沉的趋势日趋明显，AI手机、AI PC等AI硬件纷纷站上风口。GPT-4o的出现，将轻量化模型和端侧大模型推向新高度之余，端侧设备的交互革新也有了前进方向。不止AI硬件，大模型驱动下的具身智能更是热度空前，人形机器人正开启星辰大海。

作为支撑大模型运行以及生成式AI应用开发的关键，AI Infra走到了台前，从智算集群到基础软件，发展势头强劲，但挑战不少。

在上述背景下，2024中国生成式AI大会（上海站）「GenAICon 2024」将于12月5-6日在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届，迅速成长为国内生成式AI领域最具影响力的产业峰会之一。

此次也是中国生成式AI大会首次登陆上海举办。大会由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起主办。上海市人工智能行业协会为大会的指导单位。

大会上海站以“智能跃进创造无限”为主题，50+位嘉宾将带来致辞、演讲、报告和对话讨论，基于前瞻性视角解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。

上海站由“主会场峰会+分会场研讨会+展览区”组成。主会场将进行大模型峰会、AI Infra峰会，分会场将进行端侧生成式AI技术研讨会、AI视频生成技术研讨会和具身智能技术研讨会。展览区则紧邻会场门口设置，14家企业将进行技术产品展示。

作为大会上海站的三场技术研讨会之一，具身智能技术研讨会将在第二日下午的分会场进行，由主题报告和圆桌Panel两个环节组成。

一、研讨会完整议程公布

目前，具身智能技术研讨会邀请到上海人工智能实验室青年科学家王泰，上海科技大学信息科学与技术学院助理教授、博士生导师顾家远，上海交通大学在读博士、穹彻智能实习研究员吕峻，国地共建具身智能机器人创新中心数据智能负责人李广宇，哈尔滨工业大学计算学部在读博士王雪松，中国科学院空天信息创新研究院特别研究助理姚方龙6位青年学者和技术专家带来报告。

近年来，具身智能在大模型、强化学习等技术的推动下快速发展，但还面临着数据匮乏的核心问题，大规模训练和评测仍存在客观瓶颈。上海人工智能实验室青年科学家王泰将围绕《大规模具身多模态三维感知》这一主题带来报告。报告聚焦于三维场景中具身多模态感知相关的具体任务，详细介绍利用多模态大模型的生成能力设计三维多模态数据的自动化标注管线，构建带有显式三维建模和空间感知能力的具身感知基础模型，并最终利用大模型实现更符合人类判断的自动化评测。

在具身智能领域，通用机器人决策模型的开发取得了显著进展，但收集真实世界的训练数据，和在真实环境下对这些模型评估仍需高昂的成本。仿真技术提供了一种可行的替代方案，但其有效性高度依赖多样且逼真的数字资产。上海科技大学信息科学与技术学院助理教授、博士生导师顾家远将带来主题为《服务于具身智能的仿真评估平台和数字资产》的报告，详解专为评估基于真实世界数据训练的决策模型而开发的仿真环境平台SimplerEnv，和用于理解物体功能性部件的3D原生工具Point-SAM。

如何利用来自不同信息源的数据共同实现具身操作技巧开发，降低对真实机器人数据的依赖与成本已成为领域内的关注重点。上海交通大学在读博士、穹彻智能实习研究员吕峻将以《Real2Sim2Real：一种基于多信息源的具身操作技能开发系统》为主题，解读包含Real2Sim、Learn@Sim、Sim2Real模块在内的具身智能系统，旨在通过各类感知技术对现实物理世界进行建模，在仿真环境中学习开发特定的机器人操作技巧，并将仿真中学习到的技能迁移到真实环境中。

数据稀缺是目前困扰具身操作研究的共识。国地共建具身智能机器人创新中心数据智能负责人李广宇将分享具身智能国创中心在数据方面的进展，包括数据采集和训练基地建设情况、数据集开源开放情况，以及围绕数据融合方向的探索和尝试，主题为《数据视角下的具身操作》。

哈尔滨工业大学计算学部在读博士王雪松将以《具身智能大模型研究的关键问题与展望》为主题带来报告。报告将从大模型技术和人形机器人技术是如何推动具身智能发展的角度进行切入，阐述当前大模型技术在解决具身智能问题时的诸多不足，详解具身智能大模型在感知、规划、导航、和机器人操控方面待研究的关键问题，同时也将对具身智能未来发展做出展望。

空间智能与具身智能两者既有区别又相互补充。中国科学院空天信息创新研究院特别研究助理姚方龙以《万物具身：耦合空间智能与具身智能的复空间具身体系》为主题带来报告。该报告旨在尝试联结空间智能与具身智能，构思出“万物具身”这一概念，设计了复空间具身体系计算范式，探索了“超图+空天世界模拟器+空天世界模型”的研究路线，推动从单体智能向空天地海任务、环境、场景耦合的体系智能演进。

主题报告环节结束后的圆桌Panel，将由上海人工智能实验室青年科学家王泰，上海科技大学信息科学与技术学院助理教授、博士生导师顾家远，上海交通大学在读博士、穹彻智能实习研究员吕峻，国地共建具身智能机器人创新中心数据智能负责人李广宇、哈尔滨工业大学计算学部在读博士王雪松以及中国科学院空天信息创新研究院特别研究助理姚方龙一起带来。

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

二、报告嘉宾及内容介绍

1、上海人工智能实验室青年科学家王泰

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

王泰博士毕业于香港中文大学MMLab，研究方向为具身智能和三维视觉。过往工作有近三十篇论文在顶级会议和期刊上发表，谷歌学术引用 2900 余次，多篇被选中做口头报告或获得满分评审，并多次在国际顶级竞赛中获得冠军。代表工作包括早期 FCOS3D 系列工作和近期 EmbodiedScan, GRUtopia 和 PointLLM 等，相关开源工作如 MMDetection3D 在学界和业界有广泛影响。曾获得 ECCV 最佳论文提名、ICCV 研讨会最佳论文、港府奖学金。

报告主题：《大规模具身多模态三维感知》

内容概要：近年来，大模型的成功以及模仿学习、强化学习等方法的突破持续推动着具身智能的快速发展。但这一领域仍然面临着数据匮乏的核心问题，大规模训练和评测仍存在客观瓶颈。生成式 AI 的进展为解决这一问题提供了重要路径。

本报告将聚焦于三维场景中具身多模态感知相关的具体任务，详细介绍团队利用多模态大模型的生成能力设计三维多模态数据的自动化标注管线，从而形成大规模三维物体、场景在不同粒度全方位的语料标注，构建带有显式三维建模和空间感知能力的具身感知基础模型，并最终利用大模型实现更符合人类判断的自动化评测。最后，报告将展望生成式 AI 在机器人交互数据方面的巨大潜力，同时探讨其潜在的局限性。

2、上海科技大学信息科学与技术学院助理教授、博士生导师顾家远

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

报告主题：《服务于具身智能的仿真评估平台和数字资产》

内容概要：在具身智能领域，通用机器人决策模型的开发取得了显著进展。然而，收集真实世界的训练数据和对这些模型进行真实环境下的评估仍然成本高昂。仿真技术提供了一种可行的替代方案，但其有效性高度依赖于多样且逼真的数字资产。传统上，这些资产主要由游戏产业创建，但随着具身智能的发展，对高质量数字资产的需求激增，以提高仿真环境的多样性和逼真度。这引发了一系列关键问题：这些资产的真实程度应达到何种水平？我们如何有效地创建这些仿真环境？在此过程中，哪些工具是必不可少的？

在本次报告中，我将介绍最近的工作SimplerEnv，一个专为评估基于真实世界数据训练的决策模型而开发的仿真环境平台。该平台支持对多种通用机器人操作模型的评估，如RT-1和Octo。此外，我还将讨论另一个研究成果Point-SAM，一个3D原生工具，能够对三维部件和物体进行交互式分割。理解物体的功能性部件对具身智能的研究至关重要，这一工具为此提供了重要支持。

3、上海交通大学在读博士、穹彻智能实习研究员吕峻

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

吕峻博士就读于上海交通大学，师从卢策吾教授，入选上海交通大学吴文俊人工智能荣誉博士班，目前是穹彻智能实习研究员。研究方向为具身智能，曾在IJRR、RSS、CoRL、ICRA、CVPR等具身智能顶级期刊与学术会议发表论文，曾以第一作者身份获得2023年RSS最佳系统论文奖提名。

报告主题：《Real2Sim2Real：一种基于多信息源的具身操作技能开发系统》

内容概要：数据是具身智能在今天面临的核心问题之一。如何利用来自不同信息源的数据，例如仿真数据、人类演示数据、静态视觉数据等，构建数据金字塔，共同实现具身操作技巧开发，降低对真实机器人数据的依赖与数据成本成为值得关注的课题。过去几年，我们构建了包含Real2Sim、Learn@Sim、Sim2Real模块的具身智能系统，旨在通过各类感知技术对现实物理世界进行建模，基于建模在人类演示数据、自然语言提示词等的指导下于仿真环境中学习开发特定的机器人操作技巧，并将仿真中学习到技能迁移到真实环境中。相关成果发表在IJRR、RSS、CoRL、ICRA等期刊与会议上，曾获选RSS 2023 Best System Finalist。

4、国地共建具身智能机器人创新中心数据智能负责人李广宇

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

李广宇，国地共建具身智能机器人创新中心数据智能负责人，美国南加州大学电子工程系博士，具身智能和自动驾驶行业从业多年，主导构建了多家企业的数据驱动系统，包括滴滴出行多模态驾驶数据挖掘系统，覆盖滴滴百万量级网约车数据，轻舟智航数据驱动系统，支持超40万台乘用车，日均超百万公里的智能驾驶，以及国地共建具身智能创新中心数据闭环链路，并率先将多头注意力机制引入多智能体学习领域，大幅提升了数据驱动效率。

报告主题：《数据视角下的具身操作》

内容概要：数据稀缺是目前困扰具身操作研究的共识。从各种机器人整机、机械臂、灵巧手等本体厂家纷纷推出的遥操作采集系统，到以UMI为代表的低成本采集设备，再到各类人类操作动作捕捉方案，以及各种仿真数据合成方法。如何高效的获取具身操作数据，已经成为学术界和产业界的研究重点。

另一方面，针对不同途径获取的数据，具身数据金字塔的概念已经广为传播：下层是数据量大、获取成本低，但单位价值较低的互联网数据和仿真合成数据；顶层是采集成本昂贵，单位价值高的真机遥操作数据；而中间层是介于真机遥操作和仿真合成之间的，人类动作捕捉数据和仿真遥操作数据。同时当前的机器人数据中，本体构型丰富多样，传感器配置各异。如何有效融合多种来源，多种本体的具身数据，也是研究者和工程师的关注点。

本次报告中，我将梳理具身数据方向的各种技术路线，并介绍具身智能国创中心在数据方面的进展，包括数据采集和训练基地建设情况、数据集开源开放情况，以及一些围绕数据融合方向的探索和尝试。

5、哈尔滨工业大学计算学部在读博士王雪松

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

王雪松，哈尔滨工业大学计算学部在读博士研究生，师从刘挺教授、张伟男教授。曾担任中国中文信息学会青工委学生执委，研究方向为多模态大模型和具身智能，参与研发哈工大“活字”大模型，带头研发了哈工大展厅服务机器人等。

报告主题：《具身智能大模型研究的关键问题与展望》

内容概要：随着深度学习、大模型技术的突破性进展，人工智能的发展从感知智能和认知智能，逐步向能够与真实物理环境进行交互的具身智能阶段发展，并在大模型在多种任务上的强大泛化能力和人形机器人对于人类社会场景的适应能力的基础上，有望通过具身智能的发展，最终实现通用人工智能。不过，具身智能为我们带来希望的同时，也更多的带来了挑战，机器人如何感知世界、理解世界？如何拥有对自己行为的认知？如何高效合理的运动？等等。

本次报告将从大模型技术和人形机器人技术是如何推动具身智能发展的角度进行切入，阐述当前大模型技术在解决具身智能问题时的诸多不足，进而详解具身智能大模型在感知、规划、导航、乃至机器人操控方面有哪些亟待研究的关键问题，同时也将对未来具身智能如何更好发展做出展望。

6、中国科学院空天信息创新研究院特别研究助理姚方龙

GenAICon 2024上海站具身智能技术研讨会议程公布，报名进入最后阶段！

姚方龙于中国科学院空天信息创新研究院直博（导师孙显研究员），毕业留院工作任目标重点实验室特别研究助理（合作导师付琨研究员），负责具身智能与空间智能研究方向，并在科技部（中央科技办）借调工作。在Nature Communications、IEEE TPAMI、IEEE TNNLS、IEEE TGRS等期刊发表论文20篇（其中顶刊/顶会18篇，第一/通讯作者13篇，IF＞10有6篇），授权专利12项，担任国际期刊Innovations in Aerospace Science and Technology、Journal of Artificial Intelligence and Robotics编委，Advanced Tech. in Neuroscience、Intelligence&Robotics、SmartBot青年编委， IEEE TGRS、IEEE TII、Information Fusion等顶刊审稿专家，以副主编身份参编“十四五”教材2本。主持国家自然科学基金青年项目，牵头研制遥感时空预测大模型-灵眸·Sense、空天世界模拟器-空天·万界、空天具身世界模型，参与制作全球规模最大遥感细粒度数据集。获中国科学院院长优秀奖和指挥与控制学会科技进步一等奖。

报告主题：《万物具身：耦合空间智能与具身智能的复空间具身体系》

内容概要：空间智能旨在开发理解三维物理世界的模型，模拟物体物理特性、空间位置和功能，具身智能通过赋予智能“身体”，与环境交互反馈中实现智能增长和环境自适应，二者既有区别又相互补充。本报告旨在尝试联结空间智能与具身智能，构思出“万物具身（Embodiment-of-Objects）”概念，设计了复空间具身体系（Multiverse Embodied System）计算范式，探索了“超图+空天世界模拟器+空天世界模型”的研究路线，初步形成思维超图引导的智能体世界模型、异质超图引导的智能体关联导航、时空超图引导的智能体预测规划等关键技术，推动从单体智能向空天地海任务、环境、场景耦合的体系智能演进。