智东西(公众号:zhidxcom)
编 | 王颖
智东西4月15日消息,加州大学伯克利分校和谷歌大脑的研究人员共同研发了一种深度学习算法,可以让机器人在执行一项动作的同时思考如何完成下一步动作,就像人或动物一样,机器人必须同时思考移动。
为了开发针对此类并发控制问题的算法框架,研发团队通过对现有深度学习算法的简单体系结构扩展,研发出了新的近似动态编程的方法,该研究已在ICLR 2020上发表。
一、新算法抓取速度提升37%
在新的深度学习算法中,机器人必须在当前操作仍在执行的同时对下一个操作进行采样。研究人员提出,算法中引入了模拟的机器人抓取基线,该基线包括机器人移动和思考超时的惩罚,也包括鼓励采取更快策略的设置。
通过提供强化学习方法和环境中状态延迟的额外信息,研究人员比较来连续时间情况下机器人运行的特征,包括正在进行的动作、思考需要的时间、动作选择时间和移动时的运动特征。
经过多次大规模模拟抓取和真实抓取方法试验,新的算法模型抓取成功率达到了普通算法的成功率,并且速度提高了37%。新模型能够快速、流畅的运行,而且不需要在行动之间停下来思考。
二、大量训练提升抓取和思考准确度
让机器人在移动的同时能够思考下一步动作在实践上有几个比较大的挑战,比如思考的延迟和正在进行动作的中断。为了解决这个问题,研究人员提出了深度强化学习的算法,并在一些任务上进行了测试。实验结果表明,这种方法在合成和更多实际机器人控制任务上的性能都得到了持续改善。
论文中介绍了一种算法框架来分析连续和离散时间的并发环境,当决策过程允许动作并发执行时,就需要机器人同时做到对周围环境的观测,这样会增加算法策略的难度。
研发团队从Bellman方程的连续时间公式开始,以能够感知系统延迟的方式离散它们,通过对现有的强化学习算法进行简单的框架扩展,实例化了这种新的近似动态编程的方法,并通过模拟基准任务和大规模机器人抓取任务评估了机器人的思考和移动能力。
原文来自:GoogleSites