「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

人体动作合成一直是研究的热点,尽管从动作标签中生成动作取得了一些令人印象深刻的结果,但也存在一定的局限性,例如:生成动作的数据集规模较小,数据结构简单、偏向于SMPL位姿参数的运动数据,而对骨骼关节坐标数据的处理效果较差、只关注单人动作生成,忽视了多人交互动作等。

多人交互作为以人为中心的视觉问题的重要组成部分,在生成模型方面已经取得了实质性进展。目前的研究主要将参与者和反应者同等对待或局限于单个人体运动生成,而忽略了无处不在的人与人之间的交互反应生成。与此同时,现有的人与人交互数据集通常存在身体动作不准确、缺乏手势和细粒度文本描述的问题。

为了解决以上问题,上海交通大学在读博士徐良提出了基于GAN和Transformer架构的通用3D人体动作生成框架ActFormer、人体反应生成框架ReGenNet以及人人交互数据集Inter-X,相关论文为《ActFormer: A GAN-based Transformer towards General Action-Conditioned 3D Human Motion Generation》、《ReGenNet: Towards Human Action-Reaction Synthesis》、《Inter-X: Towards Versatile Human-Human Interaction Analysis》,分别收录于ICCV 2023、CVPR 2024、CVPR 2024。

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告

通过结合GAN和Transformer的优势,提出了一个通用的、条件驱动的3D人体动作生成框架ActFormer。

其中,生成器使用基于Transformer的生成网络,用于将隐式向量(通过高斯过程作为隐式先验随机采样得到)和给定的动作类别标签(作为条件输入,指导生成特定类别的动作序列)转化为人体动作序列。

判别器采用ST-GCN(时空图卷积网络)的网络框架,接收人体运动序列和动作标签作为输入,试图区分真实和合成的动作序列。生成器从判别器的反馈中学习,形成博弈,从而使生成结果更接近真实动作。

ActFormer不仅能够生成高质量的、多样化的3D人体动作序列,还支持多种类型的人体动作表征生成以及通过小幅度调整网络框架,引入人数维度使多人共享同一个采样的隐式表征,实现多人动作生成。

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告ReGenNet 基于扩散的生成模型和 Transformer 解码器架构,模拟和预测人与人之间的动态交互。

ReGenNet 利用扩散模型通过逐步添加噪声和去噪过程来学习数据的分布。同时,结合 Transformer 解码器架构,利用其在序列建模方面的强大能力来捕捉人类动作的动态性和时序性。

通过分析交互序列的不对称性、动态性、同步性和详细性,算法能够完成在线预测人类反应,在人类动作-反应合成任务中取得了显著的效果。

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告针对现有的人类交互数据集通常存在的问题,提出了目前最大的人类交互数据集Inter-X,包含约11K个交互序列和超过810万帧(frames)的数据。标注部分超过34K个细粒度的人体部位级别的文本描述、语义交互类别、交互顺序,以及交互主体的关系和性格特征。多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告

7月16日晚7点,智猩猩邀请到论文一作、上海交通大学和宁波东方理工大学联合培养博士生徐良参与「智猩猩AI新青年讲座」244讲,主讲《多人互动中的人体动作与反应生成》。

讲者

徐良

上海交通大学和宁波东方理工大学联合培养博士

研究兴趣为以人为中心的视觉问题,包括人体动作生成、人人交互、人和物体/场景交互等的生成与理解、具身智能等,在CVPR、ICCV、ECCV等计算机视觉顶级会议上发表多篇论文。

第244讲

主 题
多人互动中的人体动作与反应生成
提 纲
1、人体动作反应生成的研究现状
2、通用的3D人体动作生成框架ActFormer
3、多人互动中的人体反应扩散生成框架ReGenNet
4、人人交互数据集Inter-X的构建与应用
5、实验结果分析与总结直播信息

直播时间:7月16日19:00
直播地点:智猩猩GenAI视频号

成果

论文标题
《ActFormer: A GAN-based Transformer towards General Action-Conditioned 3D Human Motion Generation》
《ReGenNet: Towards Human Action-Reaction Synthesis》
《Inter-X: Towards Versatile Human-Human Interaction Analysis》
论文链接
https://arxiv.org/abs/2203.07706
https://arxiv.org/abs/2403.11882
https://arxiv.org/abs/2312.16051
项目网站
https://liangxuy.github.io/actformer/
https://liangxuy.github.io/ReGenNet/
https://liangxuy.github.io/inter-x/

直播预约

本次讲座将在智猩猩GenAI视频号进行直播,欢迎预约~

入群申请

本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。

希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“244”进行申请。

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告