机器学习(ML)(二十四) — 强化学习探析

A2PO

离线强化学习旨在利用离线数据集来构建有效的智能体策略,而无需在线交互。这种方法需要在行为策略的支持下施加适当的保守约束,以应对分布外问题。然而,现有工作在处理来自多个行为策略的离线数据集时,常常面临约束冲突问题,即不同的行为策略可能在状态空间中表现出不一致的动作和不同的回报。为了解决这一问题,近期的优势加权方法优先考虑具有高优势值的样本进行智能体训练,但不可避免地忽视了行为策略的多样性。

行为策略(Behavior Policy)是强化学习中的一个重要概念,指的是智能体在与环境交互时实际采取的策略。行为策略(Behavior Policy)是智能体在特定状态下选择动作的规则或映射。它描述了智能体如何在环境中做出决策,并生成与环境交互所需的数据。

  • 目标策略(Target Policy):是智能体希望学习和优化的策略,通常是期望达到最优性能的策略。
  • 行为策略(Behavior Policy):与目标策略之间的区别在于,行为策略是实际执行的策略,而目标策略则是通过行为策略收集的数据来进行学习和优化的对象。

行为策略强化学习中起着至关重要的作用,因为它直接影响到数据的多样性和质量。一个好的行为策略能够提供丰富的数据,使得智能体能够更有效地学习并优化其目标策略

优势感知策略优化(A2PO)是一种新颖的离线强化学习方法,旨在处理混合质量数据集中的策略优化问题。该方法通过显式构建优势感知策略约束,帮助智能体在没有在线交互的情况下有效学习。特点:优势感知A2PO利用条件变分自动编码器(CVAE)来解耦不同的行为策略,明确建模每个动作的优势值,从而优化智能体的决策过程;混合质量数据集,该方法特别设计用于处理来自多种行为策略的混合质量数据集,解决了传统方法在面对不一致动作和回报时可能出现的约束冲突问题;实验验证,在D4RL基准上进行的大量实验表明,A2PO在单一质量和混合质量数据集上均优于现有的其他离线强化学习方法,如BCQTD3+BCCQL等。

A2PO适用于需要从静态数据集中学习的各种应用场景,如机器人控制、自动驾驶和游戏AI等。通过有效利用历史数据,该方法能够减少探索过程中的风险和成本,同时提升智能体的性能。A2PO离线强化学习领域提供了一种新的思路,尤其是在处理复杂数据集时,其优势感知机制显著提高了策略优化的效果。

离线强化学习(Offline Reinforcement Learning, ORL)旨在从预先收集的数据集中学习有效的控制策略,而无需在线探索。这种方法在多个现实世界应用中取得了前所未有的成功,包括机器人控制和电网控制等。然而,离线强化学习面临着一个严峻的挑战,即分布外(Out-Of-Distribution, OOD)问题,这涉及到学习策略产生的数据与行为策略收集的数据之间的分布偏移。因此,直接在在线强化学习方法上应用会出现外推误差,即对未见状态-动作对的错误估计。为了解决这个OOD问题,离线强化学习方法尝试在数据集的分布范围内对智能体施加适当的保守约束,例如,通过正则化项限制学习策略,或对OOD动作的价值过高估计进行惩罚。离线强化学习在处理混合质量数据集时常常遇到约束冲突问题。具体而言,当训练数据来自多个具有不同回报的行为策略时,现有工作仍然平等对待每个样本约束,而没有考虑数据质量和多样性的差异。这种忽视导致对冲突动作施加不当约束,最终导致更差的结果。

分布外(OOD):指的是在训练过程中,智能体所选择的状态-动作对不在其训练数据集的分布中。这意味着智能体在决策时可能会遇到未曾见过的情况,从而导致对这些状态-动作对的价值估计不准确。在离线强化学习中,智能体使用的是预先收集的静态数据集,而不是实时与环境交互。因此,智能体无法从环境中获取新的状态-动作对,这限制了其学习能力。当智能体尝试采取在训练数据集中没有出现过的动作时,就会出现OOD问题。这些未见过的状态-动作对可能会导致Q值或策略的高估,从而影响整体性能。

A2PO能够实现来自不同行为策略优势感知策略约束,其中采用了定制的条件变分自动编码器(CVAE)来推断与行为策略相关的多样化动作分布,通过将优势值建模为条件变量。在D4RL基准上进行了大量实验,包括单一质量和混合质量数据集,结果表明,所提出的A2PO方法在性能上显著优于其他先进的离线强化学习基线,以及优势加权竞争者。

离线强化学习(ORL)可以大致分为四类:策略约束价值正则化基于模型的方法基于回报条件的监督学习

  • 策略约束:该方法对学习到的策略施加约束,以保持其接近行为策略。之前的研究直接在策略学习中引入了显式约束,例如行为克隆最大均值差异最大似然估计。相对而言,最近的努力主要集中在通过近似由KL-散度约束推导出的最优策略来隐式实现策略约束
  • 价值正则化:该方法对价值函数施加约束,以缓解对分布外(OOD)动作的高估。研究者们尝试通过Q-正则化项来近似价值函数的下界,以实现保守的动作选择。
  • 基于模型的方法:该方法构建环境动态,以估计状态-动作对的不确定性,从而施加分布外(OOD)惩罚
  • 基于回报条件的监督学习任务决策变换器(Decision Transformer,DT)构建了一个基于当前状态和额外累积回报信号的变换器策略,并通过监督学习进行训练。Yamagata等人通过用Q-Learning结果重新标记回报信号,改善了决策变换器(DT)策略在次优样本上的拼接能力。然而,在混合质量数据集且无法访问轨迹回报信号的离线强化学习背景下,所有这些方法都平等对待每个样本,而未考虑数据质量,从而导致不当的正则化和进一步的次优学习结果。

优势加权离线强化学习方法通过加权采样来优先训练具有高优势值的离线数据集中的转换。为提高样本效率,Peng等人引入了一种优势加权最大似然损失,通过轨迹回报直接计算优势值。此外,还有研究使用评论家网络来估计优势值,以进行优势加权策略训练。这项技术已被纳入其他工作的流程当中,用于智能体策略提取。最近,优势加权回归(AW)方法在解决混合质量数据集中的约束冲突问题上也得到了很好的研究。一些研究提出将优势加权行为克隆作为直接目标函数显式策略约束。此外,LAPO框架采用优势加权损失来训练条件变分自编码器(CVAE),以生成基于状态条件的高优势动作。除了优势加权回归(AW)方法外,Hong等人增强了经典离线强化学习训练目标,通过后续回报的权重进行调整。而Hong等人则直接学习最优策略密度作为权重函数,以便从高性能策略中进行采样。然而,这种优势加权回归(AW)机制不可避免地减少了数据集中的多样性。相对而言,优势感知策略优化(A2PO)方法直接将智能体策略条件化于状态估计的优势值,使得能够有效利用所有样本,无论其质量如何。

优势加权回归(Advantage-Weighted Regression, AWR)是一种简单且可扩展的离线强化学习算法,旨在利用标准的监督学习方法作为子程序。AWR的核心思想是通过两个监督回归步骤来训练智能体的策略和价值函数。原理:价值函数回归,首先,AWR通过回归累计奖励来训练一个价值函数基线。这一步骤的目的是建立一个对环境奖励的估计,使得后续的策略更新能够更好地反映出哪些动作是有效的;策略回归,接下来,AWR使用加权回归来更新策略。这里,加权是基于每个动作的优势值(advantage),即某个动作相对于当前策略的期望收益的提升程度。通过这种方式,AWR能够优先选择那些表现更好的动作,从而提高学习效率

LAPO(Latent-Variable Advantage-Weighted Policy Optimization)是一种针对离线强化学习算法,旨在有效处理异质性数据集中的策略学习问题。该方法通过利用潜在变量生成模型来表示高优势的状态-动作对,从而提高策略的学习效率和效果。原理:潜在空间建模LAPO通过学习一个状态条件的潜在空间,生成高优势动作样本。这种方法使得智能体能够选择那些在训练数据中支持的动作,同时有效地解决目标任务;优势加权,该算法采用优势加权策略,通过最大化加权对数似然来学习高回报动作。具体来说,LAPO通过两步交替进行:估计每个动作的重要性权重,并根据这些权重回归数据集中的动作;Q函数优化LAPO在每次迭代中优化潜在策略,以直接最大化回报。它使用标准强化学习方法(如DDPGTD3)来更新潜在动作,这些动作经过解码器转换为原始动作空间

我们将强化学习(RL)任务形式化为一个马尔可夫决策过程(MDP),定义为一个元组,其中表示状态空间表示动作空间,表示环境动态表示奖励函数折扣因子初始状态分布。在每个时间步智能体观察状态,并根据其策略选择一个动作。这个动作导致根据动态分布转移到下一个状态。此外,智能体还会收到奖励信号强化学习的目标是学习一个最优策略,以最大化期望回报:。在离线强化学习中,智能体只能从离线数据集中学习,而无法与环境进行在线交互。在单一质量设置中,离线数据集是由单一行为策略收集的,包含次转换。在混合质量设置中,离线数据集是由多个行为策略收集的。通过动作价值函数来评估学习到的策略状态价值函数定义为,而优势函数定义为。对于连续控制,A2PO实现使用基于actor-critic框架的TD3算法作为其基础,以确保稳健的性能。演员网络,即学习到的策略,由参数参数化,而评论家网络则由参数为Q-网络和参数为V-网络组成。actor-critic框架涉及两个步骤:策略评估策略改进。在策略评估阶段,通过时间差(TD)损失优化Q-网络

我们将目标网络的参数定期更新,以保持学习的稳定性,这些参数是通过在线参数更新的。V-网络也可以通过类似的时间差(TD)损失进行优化。在连续控制中的策略改进阶段,演员网络可以通过确定性策略梯度损失进行优化。

A2PO方法由两个关键步骤组成:行为策略解耦智能体策略优化。在行为策略解耦阶段,使用条件变分自编码器(CVAE)解开行为策略,基于收集的状态-动作对的优势值条件下的动作分布。通过输入不同的优势值,新的条件变分自编码器(CVAE)允许智能体推断与各种行为策略相关的不同动作分布。然后,在智能体策略优化阶段,从优势条件导出的动作分布作为解耦的行为策略,建立一个优势感知的策略约束来指导智能体的训练。

注意离线强化学习将在优化损失上施加保守约束,以应对分布外(OOD)问题。此外,最终学习到的策略

行为策略解耦

为了实现行为策略解耦,我们采用条件变分自编码器(CVAE)将不同具体行为策略行为分布与基于优势的条件变量关联起来,这与之前的方法大相径庭,后者仅利用CVAE来近似仅基于特定状态的整体混合质量行为策略集。具体而言,对CVAE的架构进行了调整,使其具备优势感知能力编码器接收条件和动作,将它们投影到潜在表示中。给定特定条件编码器输出解码器捕捉条件与潜在表示之间的相关性,以重构原始动作。与之前的方法不同,这里不仅考虑状态,还考虑优势值作为CVAE的条件。状态-优势条件被公式化为:

因此,给定当前状态和优势值作为联合条件CVAE模型能够生成与优势值正相关的不同质量的相应动作。对于状态-动作对,优势值可以通过以下公式计算:

其中采用两个Q-网络并使用最小操作以确保离线强化学习环境中的保守性。此外,我们使用了函数将优势条件归一化到范围内。这一操作防止了过多的异常值影响CVAE的性能,提高了生成的可控性。CVAE模型使用状态-优势条件和相应的动作进行训练。训练目标涉及最大化经验下界(ELBO)上采样的小批量数据的对数似然

其中,是用于平衡KL-散度损失项的系数,表示先验分布,设置为。第一个对数似然项鼓励生成的动作尽可能与真实动作匹配,而第二个KL-散度项则使潜在变量分布先验分布对齐。在每轮CVAE训练中,从离线数据集中抽取一小批状态-动作对。这些对被输入到中,通过以上公式获取相应的优势条件。然后,优势感知CVAE随后通过以上公式进行优化。结合优势条件CVAE捕捉了行为策略动作分布之间的关系,这进一步使得CVAE能够基于状态-优势条件生成动作,使得动作质量优势条件正相关。此外,优势感知CVAE被用于为下一阶段的智能体策略优化建立一个优势感知策略约束

智能体策略优化

智能体是基于actor-critic框架构建的。评论家由两个Q-网络和一个V-网络组成,用于近似智能体策略的价值。演员,即优势感知策略,以为输入,基于状态和指定的优势条件生成潜在表示。然后,这个潜在表示以及条件被输入到解码器中,以生成可识别的动作

智能体优势感知策略预计将生成与指定的优势输入正相关的不同质量的动作,该输入在公式中被归一化到范围内。因此,输出的最优动作是通过输入获得的,其中。需要注意的是,评论家网络旨在近似最优策略的期望值。根据actor-critic框架,智能体优化包括策略评估策略改进两个步骤。在策略评估步骤中,通过最小化与最优策略时间差损失来更新评论家。具体而言,对于V-网络,采用一步贝尔曼算子来近似在当前智能体感知策略下的状态价值,该状态价值以最优优势输入为条件,如下所示:

目标网络是通过软更新方式进行更新的。对于Q-网络,两个Q-网络实体都是按照公式与智能体策略进行优化。在策略改进阶段,演员损失定义为:

在第一项中,是通过固定的最大优势条件输入生成的最优动作,而是通过根据公式从评论家获得的优势条件得到的。同时,遵循TD3+BC的方法,在第一项中添加了归一化系数以保持Q值目标和正则化之间的尺度平衡,其中是一个超参数,用于控制归一化Q的规模。第一项鼓励在条件下的最优策略选择产生最高期望回报的动作,这与传统强化学习方法中的策略改进步骤一致。第二个行为克隆项明确对优势感知策略施加约束,确保策略选择符合由评论家确定的优势条件的样本动作。因此,具有低优势条件的次优样本不会干扰最优策略的优化,并对相应策略强制施加有效约束。

注意,在策略评估和改进过程中,解码器是固定的。A2PO实现选择TD3+BC作为其基础框架,以确保其稳健性。

为了解决混合质量离线数据集中的约束冲突问题,这里采用了A2PO的方法,通过优势感知的策略约束。具体而言,A2PO利用条件变分自编码器(CVAE)有效地解耦与各种行为策略相关的动作分布。这是通过将所有训练数据的优势值建模为条件变量来实现的。因此,优势感知智能体策略优化可以集中于最大化高优势值,同时遵循由混合质量数据集施加的解耦分布约束。实验结果表明,A2PO成功解耦了潜在的行为策略,并显著优于先进的离线强化学习竞争者。局限性A2PO的局限性在于它在训练过程中引入了CVAE,这可能导致相当大的时间开销。

深度强化学习—结构

强化学习(RL)在深度神经网络(DNN)强大的函数逼近能力的支持下,在众多应用中取得了显著成功。然而,它在应对各种现实场景方面的实用性仍然有限,这些场景具有多样化和不可预测的动态、噪声信号以及庞大的状态和动作空间。这一局限性源于数据效率低、泛化能力有限、安全保障缺失以及缺乏可解释性等多个因素。为克服这些挑战并改善在这些关键指标上的表现,一个有前景的方向是将关于问题的额外结构信息纳入强化学习的学习过程中。各种强化学习的子领域已提出了归纳整合的方法。将这些不同的方法整合到一个统一框架下,阐明结构在学习问题中的作用,并将这些方法分类为不同的结构整合模式。并为强化学习研究奠定了设计模式视角的基础。

强化学习(RL)在序列决策控制问题中发挥了重要作用,例如游戏、机器人操作和优化化学反应。大多数传统强化学习研究集中在设计解决由任务固有动态引发的序列决策问题智能体,例如控制套件OpenAI Gym中的小车倒立摆任务所遵循的微分方程。然而,当环境发生变化时,它的性能就会显著下降。此外,将强化学习智能体部署于还面临额外挑战,例如复杂的动态、难以处理且计算成本高昂的状态和动作空间,以及噪声奖励信号。因此,强化学习的研究开始划分为两种范式来解决这些问题:泛化,开发出能够解决更广泛问题的方法,其中智能体在各种任务和环境中进行训练;可部署性,专门针对具体现实问题而设计的方法,如特征工程、计算预算优化和安全性。泛化可部署性的交集涵盖了需要处理任务多样性的同时又能针对特定应用进行部署。为了促进这一领域的研究,MannorTamar主张采用以设计模式为导向的方法,将方法抽象为专门针对特定问题的模式。

强化学习(RL)的设计模式之路上,对设计决策与其适用问题属性之间关系的理解存在一些空白。尽管使用状态抽象来处理高维空间的决策似乎是显而易见的,但对于使用关系神经架构来解决某些问题的决策却并不那么显而易见。为此,理解如何将额外的领域知识融入学习流程,将为这一过程增添原则性的支撑。学习问题本身的结构,包括状态空间动作空间奖励函数环境动态的先验知识,是领域知识的重要来源。
尽管这些方法在强化学习的发展历史中一直是研究主题,但在深度强化学习中实现这些目标的方法却散落在现代强化学习研究的各个子领域中。融入结构意味着利用关于可分解性的附加信息,以提高样本效率、泛化能力、可解释性和安全性。一个强化学习(RL)智能体可以选择适合学习者当前状态和学习目标的学习材料、活动和评估。这种场景充满了结构特性分解,例如学习风格或学习者的隐性技能熟练度、学习项目中的知识领域之间的关系,以及模块化内容交付机制。虽然可以通过将问题视为一个整体来构建马尔科夫决策过程(MDP),但这并不一定是最有效的解决方案。相反,可以通过不同方式构建问题,其中关于这种可分解性的先验知识可以将归纳偏见编码到强化学习(RL)智能体中。关于分解的先验知识还可以通过辅助方法发现,例如大语言模型(LLMs),这些模型能够分析大量教育内容,提取关键概念、学习目标和难度水平。将附加信息融入学习流程,例如使用LLM生成内在奖励,可以提高强化学习(RL)智能体收敛速度,使其对问题变化具有鲁棒性,并帮助提高安全性可解释性

强化学习(RL)的辅助信息可用于提高样本效率、泛化性、可解释性很安全性等指标。辅助信息的另一个特定来源是可分解性,包括潜在空间(Latent)、因子化(Factored)、关系型(Relational)和模块化(Modular)。强化学习的结构大致分为7设计模式

  • 抽象(Abstraction):通过简化环境或任务,将复杂问题转化为更易处理的形式。
  • 增强(Augmentation):利用额外的信息或功能来丰富智能体的学习过程。
  • 辅助优化(Auxiliary Optimization):引入辅助任务以促进主任务的学习。
  • 辅助模型(Auxiliary Model):使用辅助模型来提供额外的信息或指导。
  • 仓储(Warehouse):利用存储机制来管理和重用经验。
  • 环境生成(Environment Generation):动态生成环境以适应不同的学习需求。
  • 显式设计(Explicitly Designed):针对特定问题设计特定的解决方案。

在实际应用中,例如一个出租车服务的强化学习(RL)智能体,需要学习城市的布局、交通模式和乘客行为等信息。直接学习所有这些信息可能会让智能体感到不知所措。因此,通过将问题分解为更易处理的部分并在学习管道中融入结构,可以使问题变得更加可管理。通过将结构假设分解方法结合,强化学习模型不仅可以提高效率,还能变得更加智能和适应现实世界的挑战。

序列决策问题通常使用马尔可夫决策过程(MDP)的概念进行形式化,可以写成一个五元组。在任何时间步,环境处于状态,其中初始状态分布智能体采取一个动作,使环境转移到一个新的状态。随机转移函数控制这种转移的动态,表示为,它以状态和动作为输入,输出一个关于后续状态的概率分布,从中可以抽样得到后续状态。对于每个转移,智能体会获得一个奖励,其中。序列被称为一次经验智能体根据策略行动,该策略在策略空间中生成给定状态下的动作概率分布。这是一个确定性策略的德尔塔分布,这意味着该策略输出一个单一的动作。使用当前策略,智能体可以反复生成经验,而这样的经验序列也称为轨迹

情节强化学习(episodic RL)中,轨迹由在多个情节中收集的经验组成,每个情节都会重置环境。相对而言,在持续设置(continual settings)中,轨迹包含在单个情节中收集的一段时间内的经验。轨迹中的奖励可以累积成一个称为回报(return)期望总和,该回报可以为任何起始状态计算如下:

为了使公式中的总和可处理,假设问题的时间范围为固定长度(有限时间回报),即轨迹在步后终止,要么通过折扣因子来折扣未来的奖励(无限时间回报)。然而,折扣也可以应用于有限时间范围。解决一个马尔可夫决策过程(MDP)相当于确定策略,以最大化其轨迹的回报期望。这个期望可以通过(状态-动作值函数来捕捉。给定一个策略,这个期望可以递归地写成:

因此,目标现在可以表述为寻找一个能够最大化最优策略

我们还考虑部分可观测马尔可夫决策过程(POMDP),它建模了状态无法完全观察的情况。POMDP被定义为一个七元组,其中的定义与上述相同。智能体现在不是观察状态,而是可以访问通过发射函数从实际状态生成的观察。因此,观察在经验生成过程中取代了状态的角色。然而,解决POMDP需要维护一个额外的信念,因为多个可以导致相同的

强化学习(RL)算法的任务是通过模拟其转移动态奖励函数马尔可夫决策过程(MDP)进行交互,并学习最优策略完成的。在深度强化学习中,策略是一个深度神经网络,用于生成轨迹。我通过最小化目标来优化策略。一个MDP的模型允许智能体通过模拟生成经验来规划轨迹。使用这种模型的强化学习方法被归类为基于模型的强化学习(Model-Based RL)。另一方面,如果没有这样的模型,则需要直接从经验中学习策略,这类方法则属于无模型强化学习(Model-Free RL)。
强化学习方法还可以根据目标的类型进行分类。使用值函数的方法,以及相应的蒙特卡洛估计时间差分(Temporal Difference, TD)误差,用于学习策略,这类方法属于基于值的强化学习(Value-Based RL)。时间差分方法中的一个关键思想是自举(bootstrapping),它使用已学习的值估计来改善前一个状态的估计。在线策略方法直接更新生成经验的策略,而离线策略方法则使用单独的策略来生成经验。基于策略的方法直接对策略进行参数化,并使用策略梯度定理来创建目标。实践中的强化学习方法的一个核心研究主题集中在通过迭代学习上述一个或多个量来近似全局解决方案,使用监督学习函数近似。使用管道的概念来讨论不同的强化学习方法。下图展示了强化学习管道的结构。管道可以定义为一个数学元组,其中所有定义与之前相同。为了求解马尔可夫决策过程(MDP),管道在给定环境的情况下运作,通过将状态作为输入并产生动作作为输出。环境根据动态奖励函数运作。管道可能通过直接与环境交互来生成经验,即从经验中学习,或通过模拟已学习的环境模型来生成经验。优化过程涵盖当前策略、其值函数、奖励和学习目标之间的相互作用。

除了通过马尔可夫决策过程(MDP)对问题进行表征外,还有额外的信息,这些信息可能会提高在样本效率、泛化能力、可解释性和安全性等额外指标上的表现。我们称之为边信息(Side Information)。对于半监督无监督设置,边信息是指任何额外的信息,虽然既不是输入空间的一部分,也不是输出空间的一部分,但对学习过程有所贡献。在强化学习的背景下,这可以理解为在原始马尔可夫决策过程(MDP)定义中未提供的额外信息。边信息可以通过一个或多个组件来融入强化学习管道。数学上,可以使用某个函数来表示,该函数通过与函数进行增强,使管道条件化于边信息

在元组中增加一个额外的函数,该函数作用于其他元组元素 。例如,融入边信息可以通过添加一个编码器来学习状态抽象,将状态空间映射到一个潜在表示,该表示可用于控制。样本效率(Sample Efficiency)与强化学习样本复杂度(Sample Complexity)密切相关。直观上,如果一个管道在相同的时间步数下表现出比基线更高的奖励,就认为它更具样本效率。为了正式定义这一点,使用探索的样本复杂度的概念:给定某个,将样本复杂度定义为策略在时间步数之后产生的值。这一定义直接衡量了智能体表现不佳的次数(由量化),并将“快速”学习者视为那些尽可能少地表现不佳的学习者。引入边信息会导致样本复杂度的降低,从而提高样本效率

探索强化学习中的一个关键问题,改善样本复杂度的一种具体方法是通过使用边信息直接影响探索机制。Amin等人将探索方法根据智能体用于探索世界的信息类型分为以下几类:

  • 无奖励探索方法:在这种方法中,外部奖励不会影响行动选择,而是依赖于内在动机的形式进行探索,例如多样性最大化
  • 随机行动选择方法:利用估计的价值函数策略奖励来诱导探索行为。
  • 乐观/基于奖励的探索方法:采用乐观面对不确定性的范式,倾向于选择具有更高不确定值的行动。
  • 深思熟虑的探索方法:使用动态的后验分布贝叶斯设置)或元学习技术来优化解决探索问题。
  • 概率匹配方法:利用启发式选择下一个行动。

迁移泛化涵盖了评估强化学习(RL)智能体在不同马尔可夫决策过程(MDP)上表现的性能指标:迁移评估一个在某个MDP上训练的智能体在另一个MDP上的表现。这可以通过one-shot方式进行,即智能体不对进行微调,或者通过few-shot方式进行,即智能体上进行一些策略更新,以尽可能快地学习。通常,两个MDP之间的性能差距决定了迁移性能

泛化(Generalization)将这一概念扩展到在一组训练马尔可夫决策过程(MDP)上训练智能体,然后在一组不同的MDP上评估其性能。因此,这一指标可以用来衡量泛化能力

当训练和测试的马尔可夫决策过程(MDP)从同一分布中抽样时,可以对更严格形式的泛化进行评估,即。根据迁移的方式(one-shot、few-shot),这一概念涵盖了任何形式的MDP分布,包括多任务设置。将边信息融入学习中可以最小化。在one-shot情况下实现这一目标的三种方式:

  • 增加之间的相似性,通过数据增强领域随机化环境- 生成或通过隐式或显式地影响优化目标等技术。
  • 处理之间的差异,通过编码归纳偏置正则化学习不变性在线适应
  • 处理特定于强化学习的问题,如探索非平稳数据分布

可解释性(Interpretability)指的是对系统的机制性理解,以使其更加透明。模型可解释性的三个基本属性:

  • 可模拟性(Simulatability):指的是人类能够模拟系统内部工作原理的能力。
  • 可分解性(Decomposability):指的是为系统的各个工作部分增加直观理解的能力。
  • 透明性(Transparency):指的是改善对系统功能的理解,例如量化其收敛特性。

鉴于强化学习(RL)管道中各个部分的耦合特性,增加可解释性意味着学习一个符合至少一种此类属性的MDP策略。引入边信息可以帮助在这三个方面提高性能,这取决于边信息的性质及其包含内容。然而,由于可解释性指标可能具有主观性,特别是在强化学习的情况下,这些指标在不同环境下的表现可能会有所不同,因此并未明确提供可解释性的正式度量。相反,通过可分解性的视角来寻求可解释性,检查方法所利用的分解是否可以单独模拟或是否为行动选择机制增加了透明度。

安全性(Safety)指的是学习能够最大化回报期望的策略,这些策略在学习和/或部署过程中确保合理的系统性能/或遵循与安全相关的约束。例如,基于模型的强化学习方法通常会学习环境模型,然后利用该模型规划一系列动作。然而,这些模型往往是从噪声数据中学习的,将它们部署到现实世界中可能导致智能体进入灾难性状态。因此,安全强化学习(Safe-RL)文献中的方法专注于在训练过程中引入与安全相关的约束,以减轻此类问题。虽然强化学习中的安全性本身是一个广泛的领域,但我们在这项工作中考虑了两个特定类别:带约束的安全学习安全探索。前者将学习过程置于一个或多个约束之下。根据严格的必要性,这些约束可以通过多种方式纳入,例如期望安全值安全安全轨迹以及安全状态动作。可以将其表述为:

其中可以是与回报轨迹状态动作相关的函数,是一个安全阈值。因此,边信息可以用于这些约束的公式化。另一方面,安全探索(Safe Exploration)修改了探索过程,以外部知识为依据,转化为将边信息融入探索过程。虽然从直观上看,这与使用边信息进行定向探索重叠,这种定向探索的最终目标是确保安全,这可能会以牺牲样本效率泛化能力为代价。

可分解性的光谱与结构原型。如下图所示,在光谱的左端存在单一结构分解,其中可以学习到的潜在表示并将其作为归纳偏差纳入。向右移动,我们可以学习多个潜在表示,尽管是在单一解决方案中。这些是分解表示。进一步向前,我们看到交互复杂的分解的出现,其中关于因子化及其相互关系的知识可能是必要的,并且可以通过关系表示纳入学习过程。最后,看到分布式子系统,可以使用个体策略进行学习。称之为模块化表示

可分解性是指一个系统的特性,允许将其拆分为更小的组件或子系统,这些组件或子系统可以独立于较大系统进行分析、理解,并可能更高效地学习。在一个可分解的系统中,每个子系统的短期行为大致独立于其他子系统的短期行为。从长远来看,任何子系统的行为仅在聚合的方式上依赖于其他子系统的行为。强化学习(RL)流程可以沿两个轴线观察可分解性

  • 问题分解:即环境参数化状态动作转移奖励
  • 解决方案分解:即学习到的策略价值函数模型训练过程

可分解性光谱提供了一种直观的方法来理解一个系统在这方面的位置。在光谱的一端,问题是不可分解的,而在另一端,问题可以被分解为弱相互作用的子问题。同样,前者的解决方案是单一的,而后者则是模块化的。通过标记四种不同的可分解原型来捕捉这一问题-解决方案的相互作用。通过在分解的粒度上学习适当的表示,可以纳入分解。

  • 潜在分解(Latent Decomposition):潜在表示在复杂环境中非常有帮助,尤其是当基础结构不明确或非平稳时。在这种观点下,管道组件可以通过潜在表示进行近似,然后将其整合到学习过程中。学习过程中依赖于的量现在可以重新以为条件进行调整: 潜在状态动作,状态的潜在表示被用于处理诸如丰富观察空间上下文设置等场景。潜在动作在具有随机动作集的设置中也得到了类似的探索;潜在转移和奖励,虽然潜在状态允许分解转移矩阵,另一种直接解决该问题的方法是将转移矩阵分解为低秩近似线性马尔可夫决策过程基于模型的强化学习应用研究了这种直接分解形式。通过假设奖励信号是由潜在函数生成的,该函数可以作为辅助学习目标进行学习,类似的分解也可以应用于奖励
  • 因子分解:稍微偏离了单一性质,通过使用(潜在)因子来表示因子化的一个关键方面是,这些因子可能在它们对学习动态的影响上施加某种形式的条件独立性。 因子状态和动作因子状态动作空间因子马尔可夫决策过程(Factored MDPs)中得到了探索。在这种设置中,传统的方法使用动态贝叶斯网络来捕捉后续状态分布因子动作表示也被用于处理高维动作。这些方法要么在高维动作集的子集上施加因子化结构,要么导致最终动作的Q值施增加这种结构。关键是,这些方法可以利用因子化所带来的某种独立性,无论是在状态表示还是转移中。因子奖励,结合因子状态或独立建模,因子奖励被用于建模扰动奖励,或使用因果先验对潜在变量模型进行因子化。虽然因子马尔可夫决策过程并不导致因子策略,但结合状态和奖励的因子化可以导致价值函数因子化
  • 关系分解:除了使用一组因子来表示问题外,还可以利用不同因子之间的相互作用信息。通常,这些关系存在于场景中的实体之间,并用于基于归纳逻辑的学习方法。传统上,这些关系仅限于一阶逻辑,但关系结构也可以通过图形来捕捉。从数学上讲,附加信息将原始实体作为输入,并将其映射到因子集上的一个函数。因此,输出关于的函数。 具体而言,是一个描述个实体组之间关系的函数(为关系的阶数)。因此,的输入是元组的因子,它将这些因子映射到一个符号的多重集合(例如坐标距离度量逻辑谓词)。换句话说,使用符号描述个输入实体之间的关系,而多重集合能够描述不同实体之间可能存在相似关系的情况。 这种表示方法使我们能够讨论中实体之间关系的泛化以及不同形式的,并帮助我们规避枚举空间的维度问题。关系状态和动作,关系表示被用于建模关系马尔可夫决策过程(Relational MDPs)和面向对象的马尔可夫决策过程(Object-Oriented MDPs)。它们使用对象谓词的一阶表示来描述一组基础MDPs,从而表示因子化状态空间。这种表示方法能够更有效地捕捉实体之间的交互复杂结构。此外,实体之间交互的排列可以帮助定义在动态上有所不同的新MDPs,从而有助于泛化研究。状态也可以表示为图,或通过使用符号归纳偏差输入到学习模块中,作为原始状态的补充。动作关系有助于处理智能体的多个动作且动作集合非常大的实例。这些方法使用注意力机制来捕捉关系,从而为高维动作空间提供可扩展性。此外,状态与动作之间的关系帮助定义了意图可供性等概念。关系价值函数策略。传统的关系MDPs研究了如何表示和构建价值函数策略的一阶表示,以便对新实例进行泛化。这些包括回归树决策列表代数决策图线性基函数以及图拉普拉斯算子。最近的方法开始关注深度神经网络(DNN)表示,并扩展到以关系方式建模机器人任务中的形态等问题,或学习扩散算子以构建内在奖励关系任务,一条平行的研究线关注在多任务设置中捕捉关系,其中任务扰动以目标及其相应奖励的形式存在。大多数工作旨在将这些关系集成到优化过程中,或将其作为模型额外捕捉
  • 模块化分解模块化分解存在于可分解性光谱另一端,在那里可以为每个分解的实体独立学习各自的价值函数策略。具体而言,一个任务可以被分解为子系统,针对这些子系统,可以建立独立的学习模型价值函数策略 模块化(modularity)可以沿以下几个轴存在:
    • 空间模块化允许学习特定于状态空间某些部分的量,从而有效地减少状态的维度;
    • 时间模块化允许将任务分解为学习视野内的序列,从而在序列中学习模块化量
    • 功能模块化允许将策略架构分解为功能上模块化的部分,即使问题在空间和时间上是单一的。

这种分解的一个潜在结果是层次结构的出现,当学习问题利用这种层次关系时,这些问题就属于层次化强化学习(Hierarchical RL, HRL)的范畴。学习到的策略也可以表现出层次性,其中每个策略可以选择低级策略来执行子任务。每个层级可以被视为一个规划问题学习问题,从而允许通过层次结构结合规划和学习。然而,层次结构并不是模块化的必要条件。状态和目标的模块化状态空间模块化分解主要在高层规划和HRL方法的状态抽象中进行研究。诸如Q分解的方法探索了通过将单个智能体状态-动作空间部分上学习的Q值传递给下一个动作的仲裁者来设计智能体。此外,部分模型仅在基于模型的设置中对观察-动作空间的特定部分进行预测。目标在某些方法中被明确考虑,这些方法要么使用目标作为层次级别之间的接口,要么作为任务规范方法的输出。

动作空间的模块化:指的是基于学习到的动作抽象来调整策略。此类方法的经典例子属于可选,其中策略与动作的时间抽象相关联。在层次化强化学习(HRL)方法中,高层次的学习和规划基于低层次策略及其执行的终止条件。组合策略:设置组合策略,通过将已学习的策略视为基本元素来实现。这些方法将这些基本元素输入到离散优化问题中进行选择,或用于集成蒸馏连续优化设置。在这种设置中,模块化通过构造表现出来,并且是构建解决方案的核心因素。尽管在这种范式中,通过集成选择蒸馏获得的最终策略可能是单一的,但获得这些策略的过程完全是分布式的。

在定义了不同形式的可分解性边信息实现的不同目标之后,现在通过理解将结构纳入学习过程的方法来连接这两者。我们假设解决方案空间中存在某种形式的结构,这可以将归纳偏差纳入学习管道。为了理解如何将可分解性纳入强化学习(RL)管道,我们可以沿两个轴线进行潜在分类:分解类型潜在因子关系模块化)和应用分解的管道部分(例如状态或动作)。然而,这种分类忽略了一个重要部分:管道如何基于边信息进行调整。例如,关于目标的信息可以用于学习状态抽象,或直接作为输入提供给策略网络。这两种设计决策在实践中可能产生不同的影响。模式是对强化学习管道的原则性变化,使得管道能够实现一个或多个附加目标:样本效率泛化安全性可解释性。如下图所示: