谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时


                                                                                                                                                                                                                              

在具有挑战性的环境中,一些人工智能系统通过利用过去经验所提供的世界表象来实现目标。研究人员将这些应用推广到新的情况,使它们能够在以前从未遇到过的环境中完成任务。

事实证明,强化学习——一种使用奖励来推动软件策略朝着目标前进的训练技术——特别适合学习一个总结agent经验的世界模型,并通过扩展来促进新行为的学习。

雷锋网消息,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研究,他们开发了一个增强型学习智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提前计划选择行动。

他们说,Dreamer不仅适用于任何学习目标,而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。

在它的整个生命周期中,无论是交错还是并行,Dreamer都会学习一个latent dynamics model(潜在动力学模型),以预测动作和观察结果的回报。在这种情况下,“latent dynamics model”是指从图像输入中学习并执行计划以收集新经验的模型。

“潜在”表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。使用编码器组件,有效地将来自输入图像的信息集成到隐藏状态中,然后及时地将隐藏状态向前投影以预测图像和奖励。

上图:Dreamer完成一个摆动钟摆的任务。中间显示45步预测

Dreamer使用了一个多部分的latent dynamics model,这个模型的结构有些复杂。“表示”位对观察和动作进行编码,而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来投影奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型评估行动模型实现的预期想象奖励,而观察模型提供反馈信号。

上图:梦想家在迷宫中导航。中间显示45步预测。

雷锋网(公众号:雷锋网)了解到,在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉控制任务上的效果,DeepMind Control Suite是一种用于评估机器学习驱动的代理的仿真软件。

他们首先使用Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运行一次。他们说,控制套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花了17个小时才达到了类似的性能。)

上图:梦想家在玩Atari游戏(拳击)。中间显示45步预测。

研究人员报告说,Dreamer有效地利用了学习的世界模型来从少量经验中进行概括,并且它的成功证明了,通过潜在的想象力进行的学习行为可以胜过顶级方法。他们还说,Dreamer的价值模型即使在短期计划中也表现良好,在20个任务中的16个(有4个打成平手)上表现优于其他模型。

研究人员写道:“未来,关于表征学习的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展示他们的工作。Dreamer项目的代码可在GitHub上公开获得。雷锋网

                                                

雷锋网原创文章,未经授权禁止转载。详情见转载须知。

                                                                

                                                                                                   

                                                                                                              

                    

源链接   来源:雷锋网   日期:2019-12-11 08:59:00  

推荐文章

精选 | 大厂定义的 UXD 跟 UI 有何差别

通俗来讲,就是一个需求,UXD  设计师能很清晰的知道如何通过用研手段,结合产品思路,满足运营市场诉求的同时,输出有效设计策略,包括最后懂得开发原理,让开发按照预期,将方案完美落地,提升价值最大化。


作品赏析 | 再见2019,你好2020!

作者:设计小余UI中国主页:https://i.ui.cn/ucenter/943581.html更多推荐2020年UI界面设计趋势2020年设计趋势全方位分析如何快速有效的设计字体LOGO一个访谈告诉你  ——  谷歌是如何筛选UX设计师的即使更新了iOS,它和Android间的交互差异还未改变--关于我们---UI中国  专业用户体验设计平台主站:www.ui.cn新浪微博:@UI中国合作请加微信:118931333875。


书单 | 寒假来了,快看看金融科技圈里推荐的12本好书

华尔街专业人士善用专业的投资策略,他们会使用复杂的衍生工具和高频交易,在复杂的金融世界里收获不菲的回报。


AI的下一个战场,一文看懂认知智能

认知智能在公安领域的应用  在这样大背景下,明略科技将海量感知数据纳入知识构建与积累,打造了认知力更强、时效性更快、更具行动力的全域知识图谱,让机器更好的进行推理与规划,从而从平台服务、数据服务到应用服务构建了由感知到认知再到行动的完整闭环,形成了基于AI技术的警务支撑体系和安全保障体系,目前已经广泛应用于专业研判、情指一体化、社区治安防控等场景中。因此,优先积累行业知识图谱的认知智能供应商,将具备先先发优势,并凭借服务头部客户的经验,以及在历次项目实施过程中,打磨算法、工程化和交付能力,构建其核心竞争力。


对话陆奇:做一件长期有价值的事,不被人理解是必然的!

《晚点》:一些投资人和创业者说,我们尊敬并喜爱陆奇,但我们并不看好他做的事。陆奇:我以前要求自己做到的是,我手下两层以下的人,他们每个人的工作我都能做。陆奇:当初我决定做YC中国,我所有的中国朋友几乎都反对,没有一个人支持