2月19日消息,近日,来自Google Brain和来自DeepMind的研究团队为执行RL的更高效方法提供了原型。在论文中,研究人员提出了自适应行为策略共享(ABPS),一种允许共享从AI智能体池中自适应选择的经验的算法以及一种可同时学习的框架—通用价值函数近似器(UVFA)。研究团队声称ABPS在几款Atari游戏中都表现出色,将顶级智能体的差异减少了25%。至于UVFA,它在许多相同游戏的艰苦探索中使基础智能体的性能翻了一番,同时在其余游戏中保持了高分;它是第一个无需人工演示或手工制作的功能即可在Pitfall中获得高分的算法。