大家好，欢迎来到IT知识分享网。

文章转载｜智源社区

本期贡献者｜李明、刘青、小胖

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第35期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如安全强化学习、基于深度强化学习在交通领域、基于混合强化学习在自动驾驶生态驾驶策略、约束强化学习、强化学习在铁路交通领域等相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于从模拟到实验再到现实：安全强化学习的屏蔽和泛化保证、基于深度强化学习自安全意识的道路交通路口驾驶、基于强化学习的先验、层次结构和信息不对称技能迁移、基于混合强化学习的信号交叉口联网自动驾驶汽车的生态驾驶策略、基于约束强化学习的不稳定的递归约束、基于动态仿真和强化学习的铁路运营调度系统、混合交通环境下城市无信号交叉口强化学习控制方法、SCC-rFMQ：连续动作合作马尔科夫博弈中的多智能体强化学习方法、基于深度强化学习学习金融资产特定交易规则、占用信息率：无限视野，信息导向，参数化政策搜索、基于强化学习的依赖实例保证和早期停止、基于两步混合策略的图可解释强化学习、基于拉格朗日松弛的信号时序逻辑约束下的深度强化学习、基于强化学习框架的A/B测试中的动态因果效应评估等。

标题：Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees（Sim-to-Lab-to-Real：安全强化学习的屏蔽和泛化保证））

简介：安全是自主系统的关键组成部分，并且仍然是在现实世界中使用基于学习的策略的挑战。特别是，由于不安全的行为，使用强化学习学习的策略通常无法推广到新环境。本文提出 Sim-to-Lab-to-Real 以安全地缩小现实差距。为了提高安全性，其采用了双重策略设置，其中使用累积任务奖励训练性能策略，并通过解决基于 Hamilton-Jacobi 可达性分析的范围避免贝尔曼方程来训练备份（安全）策略。在 Sim-to-Lab 转换中，通过采用监控方案来屏蔽探索过程中的不安全行为；在Lab-to-Real中，通过采用可能近似正确 (PAC)-Bayes 框架来提供未知环境中策略的预期性能和安全性的下限。实证研究表明在两种室内环境中提出的自我视觉导航框架，包括照片真实感环境。并通过四足机器人在真实室内空间中的硬件实验展示了强大的泛化性能。

论文链接：Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees – AMiner

标题：Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic Junction Driving（基于深度强化学习自安全意识的道路交通路口驾驶））

简介：自动驾驶一直处于公众利益的最前沿，而引起广泛关注的一个关键辩论是交通系统的安全性。深度强化学习（DRL）已应用于自主驾驶，为避障提供解决方案。在道路交通交叉口场景中，车辆通常会收到来自交通环境的部分观察结果，而DRL需要依靠长期奖励，通过最大化累积奖励来训练可靠的模型。虽然在设计奖励函数时通常会考虑安全问题，但它们并没有被充分考虑为直接评估自主驾驶中DRL算法有效性的关键指标。本文评估了三种基准DRL模型（DQN、A2C和PPO）的安全性能，并从DRL的注意机制中提出了一个自我意识模块，以改进复杂道路交通交叉口环境（如交叉口和环岛场景）中异常车辆的安全评估，基于四个指标：碰撞率、成功率、冻结率和总奖励。通过训练和测试阶段的两个实验结果显示，基线DRL的安全性能较差，而自意识注意DQN可以显著提高交叉路口和环岛场景中的安全性能。

论文链接：Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic Junction Driving – AMiner

标题：Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning（基于强化学习的先验、层次结构和信息不对称技能迁移））

简介：从先前的经验中发现行为并将其转移到新任务的能力是智能智能体在现实世界中高效行动的标志。为具体强化学习者配备相同的能力可能对他们在机器人领域的成功部署至关重要。虽然分层和KL正则化RL在这里各自都有希望，但可以说混合方法可以结合它们各自的优点。这些领域的关键是利用信息不对称来偏见学习哪些技能。虽然不对称选择对可转移性有很大的影响，但先前的研究探索了狭窄的不对称范围，主要是由直觉驱动的。本文从理论上和经验上展示了由信息不对称控制的关键权衡，跨顺序任务的技能的表达性和可转移性之间的关系。故本文提供了选择不对称性的原则性方法，并将该方法应用于复杂的机器人块堆叠领域，该领域无法通过基线解决，证明了分层KL正则化RL，加上正确的不对称选择，对于样本高效转移学习的有效性。

论文链接：Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning – AMiner

标题：Hybrid Reinforcement Learning-Based Eco-Driving Strategy for Connected and Automated Vehicles at Signalized Intersections（基于混合强化学习的信号交叉口联网自动驾驶汽车的生态驾驶策略））

简介：利用车联网 (V2X) 通信和自动驾驶技术，互联和自动驾驶汽车正迅速成为解决许多交通问题的变革性解决方案之一。本文提出了混合强化学习 (HRL) 框架，该框架结合了基于规则的策略和深度强化学习 (deep RL)，以支持混合交通中信号交叉口的互联生态驾驶。视觉感知方法与车辆到基础设施 (V2I) 通信相集成，以在混合连接的交通中实现更高的移动性和能源效率。HRL 框架包含三个组件：基于规则的驱动管理器，用于操作基于规则的策略和 RL 策略之间的协作；提取视觉和V2I信息的隐藏特征的多流神经网络；以及基于 RL 的深度政策网络，可生成纵向和横向的生态驾驶行为。为了评估该方法，本文开发了一个基于 Unity 的模拟器并设计了一个混合交通路口场景。此外，通过几个基线以与该设计进行比较，并进行了数值实验以测试 HRL 模型的性能。实验表明，与最先进的基于模型的生态驾驶方法相比， HRL 方法可以减少 12.70% 的能源消耗并节省 11.75% 的行程时间。

论文链接：Hybrid Reinforcement Learning-Based Eco-Driving Strategy for Connected and Automated Vehicles at Signalized Intersections – AMiner

标题：Railway Operation Rescheduling System via Dynamic Simulation and Reinforcement Learning（基于动态仿真和强化学习的铁路运营调度系统））

简介：由于自然灾害的加剧，铁路服务中断的次数一直在增加。此外，2019冠状病毒疾病等社会形势的突然变化要求铁路公司频繁修改交通安排。因此，预计将自动支持优化调度。本文提出了一种铁路自动调度系统。该系统利用强化学习和动态模拟器，可以模拟整个线路的铁路交通和客流。该系统能够快速生成整条线路的交通计划，因为优化过程是作为培训提前进行的。使用中断场景对系统进行评估，研究结果表明，该系统可以在几分钟内生成整条线路的优化调度。

论文链接：Railway Operation Rescheduling System via Dynamic Simulation and Reinforcement Learning – AMiner

标题：Recursive Constraints to Prevent Instability in Constrained Reinforcement Learning（基于约束强化学习的不稳定的递归约束））

简介：本文考虑为马尔可夫决策过程找到一个确定性策略的挑战，该决策统一地（在所有状态下）最大化一个奖励，受制于不同奖励的概率约束。现有的解决方案并不能完全解决精确的问题定义，但在安全关键机器人系统的背景下自然会出现。众所周知，这类问题很难，但确定性和统一最优性的综合要求会造成学习的不稳定性。通过用一个简单的例子描述和激发了该的问题之后，提出了一种合适的约束强化学习算法，该算法使用递归约束来防止学习不稳定性。本文提出的方法采用一种近似形式，可以提高效率并且在约束方面是保守的。

论文链接：Recursive Constraints to Prevent Instability in Constrained Reinforcement Learning – AMiner

标题：A Control Method with Reinforcement Learning for Urban Un-signalized Intersection in Hybrid Traffic Environment （混合交通环境下城市无信号交叉口强化学习控制方法））

简介：在城市无信号交叉口控制自动驾驶汽车 (AV) 是一个具有挑战性的问题，尤其是在自动驾驶车辆与人类驾驶车辆共存的混合交通环境中。本文提出了一种在车路云集成系统（VRCIS）中具有近端策略优化（PPO）的协调控制方法，该控制问题被表述为强化学习（RL）问题。在这个系统中，车辆和一切（V2X）被用来保持车辆之间的通信，车辆无线技术可以检测使用车辆和基础设施（V2I）无线通信的车辆，从而实现一种经济高效的方法。然后，VRCIS中定义的连接和自主车辆（CAV）通过强化学习（RL）学习了一种策略，以适应交叉口上的人类驾驶车辆（HDV）。本文开发了一个有效的、可扩展的 RL 框架，它可以通信可能是动态流量的拓扑。

论文链接：A Control Method with Reinforcement Learning for Urban Un-Signalized Intersection in Hybrid Traffic Environment. – AMiner

标题：A Reinforcement Learning Framework for Time-Dependent Causal Effects Evaluation in A/B Testing

简介：A/B 测试或在线实验是一种标准的商业策略，用于将制药、技术和传统行业的新产品与旧产品进行比较。主要挑战出现在双边市场平台（例如优步）的在线实验中，其中只有一个单位随着时间的推移接受一系列治疗。在这些实验中，给定时间的治疗会影响当前结果以及未来结果。本文的目的是介绍一种强化学习框架，用于在这些实验中进行 A/B 测试，同时描述长期治疗效果。本文提议的测试程序允许顺序监控和在线更新。普遍适用于不同行业的多种处理设计。此外，本文系统地研究了测试程序的理论特性（例如，尺寸和功率）。最后，将此框架应用于模拟数据和从一家技术公司获得的真实数据示例，以说明其相对于当前实践的优势。

论文链接：A Reinforcement Learning Framework for Time-Dependent Causal Effects Evaluation in A/B Testing – AMiner

标题：SCC-rFMQ: a multiagent reinforcement learning method in cooperative Markov games with continuous actions（SCC-rFMQ：连续动作合作马尔科夫博弈中的多智能体强化学习方法））

简介：尽管已经提出了许多多智能体强化学习 (MARL) 方法来学习连续动作域中的最佳解决方案，但具有独立学习器 (IL) 的多智能体协作域受到的研究相对较少，尤其是在传统的 RL 领域。本文提出了一种基于样本的自主学习方法，称为具有递归频率最大 Q 值的样本连续协调 (SCC-rFMQ)，它将具有连续动作的多智能体协作问题分为两层。第一层通过具有可变探索率的重采样机制从连续动作空间中采样有限的动作集，第二层评估采样动作集中的动作并使用强化学习合作方法更新策略。通过在两个层次上构建合作机制，SCC-rFMQ 可以有效地处理连续动作合作马尔可夫博弈中的合作问题。

标题：Learning financial asset-specific trading rules via deep reinforcement learning （基于深度强化学习学习金融资产特定交易规则））

简介：根据资产的财务状况生成特定于资产的交易信号是自动化交易中具有挑战性的问题之一。基于不同的分析技术，实验性地提出了各种资产交易规则。然而，这种交易策略是有利可图的，从大量历史数据中提取新的特定于资产的交易规则以增加总回报并降低投资组合的风险对于人类专家来说是困难的。本文提出了一种具有多种特征提取模块的DRL模型。研究了不同输入表示对模型性能的影响，并研究了基于DRL的模型在不同市场和资产状况下的性能。这项工作中提出的模型在学习单一资产特定交易规则方面优于其他最先进的模型，在同一时间段内，与道琼斯指数上最先进的模型相比，获得了近12.4%的利润。

论文链接：Learning Financial Asset-Specific Trading Rules via Deep Reinforcement Learning – AMiner

标题：Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search（占用信息率：无限视野，信息导向，参数化政策搜索））

简介：本文开发了一种新的方法来衡量无限期强化学习问题中的探索/开发权衡，称为占用信息比（OIR），它由政策的无限期平均成本与其长期状态占用度量的熵之间的比率组成。OIR确保，无论RL代理走过多少条轨迹，或者学习如何将成本降到最低，它都会对其环境保持健康的怀疑态度，因为它定义了一个最优策略，该策略会导致高熵占用度量。与早期的信息比概念不同，OIR可以直接在参数化族上进行策略搜索，并通过调用透视变换来显示隐藏的准康涅狄格性。此功能确保在适当的策略参数化下，OIR优化问题没有虚假的平稳点，尽管总体问题是非凸的。基于一个新的熵梯度定理，本文首次提出了OIR优化的策略梯度和演员批评算法，并建立了全局最优性保证下的渐近和非渐近收敛结果。这些方法在奖励稀少的问题上优于几个深层RL基线，在这些问题上，许多轨迹可能没有信息，对环境的怀疑是成功的关键。

论文链接：Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search – AMiner

标题：Instance-Dependent Confidence and Early Stopping for Reinforcement Learning（基于强化学习的依赖实例保证和早期停止））

简介：各种强化学习（RL）算法的收敛速度随着问题结构的变化而显著变化。这种依赖于问题的行为并不是最坏情况分析所能捕捉到的，因此，在获得依赖于实例的保证和推导RL问题的实例优化算法方面，激发了越来越多的努力。然而，这项研究主要是在理论范围内进行的，为解释观察到的性能差异提供了保证。下一步自然是将这些理论保证转化为在实践中有用的指导方针。在给出实例优化算法的情况下，本文解决了策略评估问题和MDP的最优值估计问题中获得与实例相关的置信域的问题。因此，本文提出了一个与数据相关的停止规则，用于实例优化算法。建议的停止规则适用于问题的实例特定难度，并允许提前终止结构良好的问题。

论文链接：Instance-Dependent Confidence and Early Stopping for Reinforcement Learning – AMiner

标题：Learning Two-Step Hybrid Policy for Graph-Based Interpretable Reinforcement Learning（基于两步混合策略的图可解释强化学习）

简介：本文提出了一种两步混合强化学习（RL）策略，该策略旨在针对基于图形输入的RL问题生成可解释且鲁棒的分层策略。与之前的深度强化学习策略不同，本文的方法将决策过程分解为两个步骤。第一步是一个简化的分类问题，将图形输入映射到一个动作组，其中所有动作都具有相似的语义。第二步实现了一个复杂的规则挖掘程序，该程序对图形进行显式的一跳推理，并在不需要大量领域知识的情况下识别图形输入中的决定性边。这种两步混合策略提供了人性化的解释，并在泛化和鲁棒性方面实现了更好的性能。在四个层次的复杂文本游戏上进行的大量实验研究表明，与最先进的方法相比，该方法具有优越性。

论文链接：Learning Two-Step Hybrid Policy for Graph-Based Interpretable Reinforcement Learning – AMiner

标题：Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation（基于拉格朗日松弛的信号时序逻辑约束下的深度强化学习））

简介：深度强化学习（DRL）作为一种无需系统或环境数学模型就能解决连续决策问题的方法，受到了广泛关注。一般来说，决策可能会受到限制。在这一研究中，本文考虑具有约束的最优决策问题来完成连续状态作用域中的时间高阶任务。本文使用信号时序逻辑（STL）来描述约束，STL对于时间敏感的控制任务非常有用，因为它可以在限定的时间间隔内指定连续信号。为了处理STL约束，本文引入了一种扩展的约束马尔可夫决策过程（CMDP），称为a-CMDP。本文将STL约束优化决策问题描述为-CMDP，并利用拉格朗日松弛法提出了一种两阶段约束DRL算法。通过仿真验证了该算法的学习性能。

论文链接：Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation – AMiner

研究综述

标题：上交 | 目标制约强化学习：问题和解决方案

简介：目标制约强化学习（GCRL）涉及一组复杂的强化学习问题，它训练一个智能体在特定场景下实现不同的目标。与标准RL解决方案相比，标准RL解决方案仅根据状态或观察来学习策略，GCRL还要求代理根据不同的目标做出决策。在本文研究综述中，全面概述了GCRL面临的挑战和算法。首先，通过回答该领域研究的基本问题。然后，解释目标是如何表示的，并从不同的角度介绍现有解决方案是如何设计的。最后，总结了本文的研究结论，并对未来的研究方向进行了展望。

论文链接：Goal-Conditioned Reinforcement Learning: Problems and Solutions – AMiner

AMiner平台收录超过 1.3 亿学者、3.2 亿篇论文、4 千多万个专利、将近 1 万个数据集、超过 100 个开放算法供科技工作者免费检索使用，助力科技创新。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/61139.html

《强化学习周刊》第35期：强化学习在智能交通中的最新应用

关于周刊

论文推荐

发表回复

《强化学习周刊》第35期：强化学习在智能交通中的最新应用

关于周刊

论文推荐

相关推荐

发表回复