大家好,欢迎来到IT知识分享网。
我们开发了一种新的措施来衡量无限期强化学习问题中的探索/开发权衡,称为占用信息比率(OIR),它是由一个政策的无限期平均成本和其长期状态占用措施的熵之间的比率组成。OIR确保无论RL代理穿越多少轨迹,或者它学习成本最小化的程度如何,它都会对其环境保持健康的怀疑态度,因为它定义了一个最佳政策,该政策会引起一个高熵的占用度。与早期的信息比率概念不同,OIR适合于在参数化的家族上进行直接的策略搜索,并通过调用透视变换表现出隐藏的准空洞性。这一特点确保了在适当的政策参数化下,OIR优化问题没有虚假的平稳点,尽管整个问题是非凸的。我们首次开发了基于新的熵梯度定理的OIR优化的政策梯度和演员批评算法,并建立了具有全局优化保证的渐近和非渐近收敛结果。在实验中,这些方法在具有稀疏奖励的问题中的表现优于几个深度RL基线,其中许多轨迹可能是无信息的,对环境的怀疑是成功的关键。
《Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search》
论文地址:http://arxiv.org/abs/2201.08832v1
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/61109.html