CMU 机器人研究所在读博士胡亚飞:基于离线强化学习和在线自适应学习的机器人自主探索|AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结210讲,有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

机器人的自主探索具有许多重要的应用。然而,基于信息增益或边界的经典探索方法仅依靠机器人的当前状态确定即时的探索目标,缺乏预测未来状态价值的能力,从而导致探索决策效率低下。

最近几年随着离线强化学习算法的兴起,相关算法也被应用在机器人控制,规划以及决策等领域。离线强化学习由于其安全性,数据可复用性,以及预训练的便捷性,使得其在机器人领域拥有巨大前景。随着基础模型在视觉和语言领域的成功,离线强化学习也成为机器人控制基础模型的潜在解决方案。

针对此类问题,来自 CMU 机器人研究所的在读博士胡亚飞等人在提出的最新研究工作 OPERE 中,使用离线预训练与在线自适应算法来学习状态价值函数,让机器人可以在稀疏的外在奖励下获得更多信息。

最终的结果也表明,OPERE 在复杂的场景中可以有效提升移动机器人自主探索的效果。与其他最先进的 OPE 方法相比,OPERE 算法实现了更好的预测性能。同时,这也是首次在具有挑战性的地下和城市环境中的机器人探索的真实数据集上展示价值函数预测的工作。

6月2日早10点,在「AI新青年讲座」第211中,CMU 机器人研究所在读博士胡亚飞将主讲《基于离线强化学习和在线自适应学习的机器人自主探索》。

讲者
胡亚飞,CMU Robotics Institute在读博士;主要研究方向为机器人感知与决策,涉及深度强化学习,运动规划,机器人自主探索,视觉SLAM等问题。在计算机视觉和机器人领域顶会顶刊发表数篇论文,并担任审稿人。

第211讲

主 题
《基于离线强化学习和在线自适应学习的机器人自主探索》

提 纲
1、离线强化学习在机器人领域应用
2、预训练模型对机器人技术的影响
3、探索机器人控制的基础模型
4、使用离线预训练与在线自适应学习的机器人探索方法OPERE
5、OPERE在复杂场景中的真机测试

直 播 信 息
直播时间:6月2日10:00
直播地点:智东西公开课知识店铺

成果
论文标题:《Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments》
论文地址:https://arxiv.org/abs/2204.03140
开源地址:https://github.com/JeffreyYH/opere