绑定手机号
获取验证码
确认绑定
欢迎来智东西
登录
免费注册
关注我们
智东西
车东西
芯东西
智东西公开课
订阅成功
扫码关注智东西Plus
接受订阅信息更新提醒
伯克利AI专家分享新强化学习库rlpyt

9月10日消息,来自伯克利人工智能研究所的研究人员Adam Stooke分享了pytorch中的一个新的强化学习库rlpyt,其中不仅包括了强化学习模块优化实现,还提供支持所有三个主要的无模型算法系列:政策梯度,深度学习和q函数政策梯度,致力于成为中小规模小规模研究的高吞吐量代码库。

订阅
订阅强化学习最新消息
订阅伯克利最新消息
相关快讯
  • 09月16日 20:10
    UC伯克利联合清华提出隐式图神经网络

    9月16日消息,UC伯克利和清华的研究人员提出了一个图学习框架,称为隐式图神经网络(IGNN),其中的预测是基于一个涉及隐式定义的“状态” 向量的不动点平衡方程的解。利用Perron-Frobenius理论推导了保证框架良好性的充分条件。利用隐式微分,研究人员推出了一个易于处理的投影梯度下降方法来训练框架。对一系列任务进行的实验表明,IGNN始终能够捕获长期依赖关系,并优于最先进的GNN模型。

    来源:机器之心
  • 07月07日 17:39
    UC伯克利等提新方法训练深度ConvNet

    7月7日消息,最近,来自加州大学伯克利分校和圣迭戈分校的研究者发布一项研究,提出不使用归一化和残差连接的深度ConvNet在标准图像识别基准上也能实现优异的性能。初始化、归一化和残差连接被认为是训练深度卷积神经网络并获得最优性能的三大必备技术。该方法实现方式是:在初始化和训练期间,令卷积核具备近似保距性(near isometric);使用ReLU激活函数的变体,实现保距性。

    来源:机器之心
  • 07月02日 11:11
    SAIL推出动态环境下的强化学习LILAC

    7月2日消息,斯坦福大学AI实验室(SAIL)的研究人员设计了一种方法,可以处理随时间变化的数据和环境,其性能优于某些强化学习的领先方法。Lifelong Latent Actor-Critic(也称为 LILAC)使用潜在变量模型和最大熵策略来利用过去的经验来在动态环境中提高采样效率和性能。该团队在论文中写道:“在各种具有非平稳性的具有挑战性的连续控制任务上,我们观察到,与最新的强化学习方法相比,我们的方法可以带来实质性的改进。”

    来源:机器之心
  • 06月04日 19:18
    DeepMind推出新分布式强化学习框架

    6月4日消息,近日,DeepMind发布了一种新型分布式强化学习框架Acme,通过促使AI驱动的智能体在不同规模的环境中运行,该框架可以简化强化学习算法开发进程。此外,与先前方法相比,研究人员可以使用该框架创建并行性更强的智能体。

    来源:机器之心
  • 04月02日 18:53
    清华AI研究院开源天授强化学习平台

    4月2日消息,清华大学人工智能研究院基础理论研究中心开源其自研深度强化学习算法平台“天授”。“天授”针对现有平台训练速度慢的缺点,在并行采样基础上提高数据收集能力,采用了cache_buffer配合trainer联动即可达到每秒5000-6000fps的速度;同时注重代码模块化设计,通过避免不必要的额外运算,将reward normalization等现有各类实现中被证明行之有效的各种改进吸纳进天授0.2版本。天授是继珠算可微分概率编程库之后,该中心推出的又一个面向复杂决策任务的编程库。

    来源:机器之心
  • 03月24日 20:15
    谷歌开源SEED RL强化学习框架

    3月24日消息,谷歌开源了一个名为SEED RL的强化学习框架,能够将人工智能模型训练扩展到数千台机器,有助于在一台机器上以每秒数百万帧的速度进行训练,并将训练成本降低多达80%。据了解,该研究论文已于2019年10月15日提交在预印本平台arXiv,并在今年2月11日进行了最新修订,名为《SEED RL:具有加速的集中推理功能的可扩展且高效的Deep-RL》。

    来源:智东西
  • 19年12月30日 19:51
    华为提出基于强化学习的因果发现算法

    12月30日消息,华为诺亚方舟实验室被ICLR 2020接收的一篇满分论文《CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING》介绍:华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中,通过基于自注意力机制的encoder-decoder神经网络模型探索数据之间的关系,结合因果结构的条件,并使用策略梯度的强化学习算法对神经网络参数进行训练,最终得到因果图结构。

    在学术界常用的一些数据模型中,该方法在中等规模的图上的表现优于其他方法,包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活,可以和任意的打分函数结合使用。

    来源:机器之心
  • 19年11月04日 16:11
    百度获NeurIPS 2019强化学习赛冠军

    11月4日消息,在NeurIPS 2019强化学习赛上,百度继2018年夺冠后再次获得冠军。百度基于飞桨的强化学习框架PARL完成挑战,并领先第二名143分。据悉,该比赛采用斯坦福国家医学康复研究中心研发的Opensim人体骨骼高仿模型。参赛者需要根据该模型中多达100多维以上的状态描述特征,来决定模型肌肉的信号,控制模型的肌体行走。

    来源:智东西
  • 19年10月17日 23:15
    Facebook推出ReAgent强化学习工具包

    10月17日消息,据外媒报道,Facebook今日推出ReAgent强化学习(reinforcement learning)工具包,首次通过收集离线反馈(offline feedback)来实现策略评估(policy evaluation)。目前ReAgent已与Microsoft Azure顶尖AI平台实现合作。

    来源:智东西
  • 19年07月31日 16:35
    谷歌推足球游戏强化学习环境1.1版本

    7月31日消息,谷歌曾于今年6月推出了一个名为Google Research Football Environment的新型强化学习环境,训练智能体掌握足球运动。该研究小组今日宣布,该强化学习环境的1.1版本,包括了新的实验,多人游戏和多代理培训支持以及游戏引擎的3倍加速。

    来源:智东西
加载更多 ···