深度强化学习已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。其中,用于视觉控制的深度强化学习旨在学习给定观察图像的最优策略,实现了对机器人的行为控制。但受自身学习能力的制约,在处理高维状态与动作空间下的控制问题时,存在样本利用率低以及算法不易收敛等缺陷,严重限制了深度强化学习方法对机器人运动的控制能力。

随着Transformer在学习视觉和语言表示方面取得了巨大的成功,将Transformer引入视觉控制模型中成为研究人员的一种新选择。在视觉控制中,学习可在不同控制任务间迁移的可迁移状态表示,对于提升样本利用率具有重要意义。然而,将Transformer移植到采样高效的视觉控制仍然有很大的难度。

为此,香港大学穆尧博士等人提出了一种新颖的控制Transformer框架CtrlFormer。CtrlFormer在不同控制任务之间联合学习视觉令牌和策略令牌之间的自注意力机制,可以在不发生灾难性遗忘的情况下学习和迁移多任务表示。此外,还设计了一个对比强化学习范式来训练CtrlFormer,使其能够达到较高的样本效率。

在DMControl基准测试中,最近的先进方法在使用100k样本迁移学习后在“Cartpole”任务中产生零分而失败,而CtrlFormer可以在仅使用100k样本的情况下获得769±34的最先进的分数,同时保持之前任务的性能。

8月31日晚7点,「AI新青年讲座」第152讲邀请到香港大学在读博士穆尧参与,主讲《深度强化学习的多任务迁移及其在机器人上的应用》。

第152讲

主题

深度强化学习的多任务迁移及其在机器人上的应用

提纲

1、视觉控制在机器人中的应用与挑战
2. 基于CtrlFormer的深度强化学习多任务迁移
3、对比强化学习训练框架
4、机器人控制任务中的视觉泛化性

讲者介绍

穆尧,香港大学在读博士,师从罗平老师,现主要研究方向包括强化学习、机器人控制和表示学习, 在 NeurIPS、ICML、CVPR、IJCAI等顶级会议发表论文5篇,曾获ICCAS 2020最优学生论文奖,IV2021最优学生论文提名奖。

课程信息

直播时间:8月31日19:00
直播地点:智东西公开课知识店铺