机器学习(ML)(二十四) — 强化学习探析
A2PO
离线强化学习旨在利用离线数据集来构建有效的智能体策略,而无需在线交互。这种方法需要在行为策略的支持下施加适当的保守约束,以应对分布外问题。然而,现有工作在处理来自多个行为策略的离线数据集时,常常面临约束冲突问题,即不同的行为策略可能在状态空间中表现出不一致的动作和不同的回报。为了解决这一问题,近期的优势加权方法优先考虑具有高优势值的样本进行智能体训练,但不可避免地忽视了行为策略的多样性。
行为策略(Behavior Policy
)是强化学习中的一个重要概念,指的是智能体在与环境交互时实际采取的策略。行为策略(Behavior Policy
)是智能体在特定状态下选择动作的规则或映射。它描述了智能体如何在环境中做出决策,并生成与环境交互所需的数据。
- 目标策略(
Target Policy
):是智能体希望学习和优化的策略,通常是期望达到最优性能的策略。 - 行为策略(
Behavior Policy
):与目标策略之间的区别在于,行为策略是实际执行的策略,而目标策略则是通过行为策略收集的数据来进行学习和优化的对象。
行为策略在强化学习中起着至关重要的作用,因为它直接影响到数据的多样性和质量。一个好的行为策略能够提供丰富的数据,使得智能体能够更有效地学习并优化其目标策略。
优势感知策略优化(A2PO
)是一种新颖的离线强化学习方法,旨在处理混合质量数据集中的策略优化问题。该方法通过显式构建优势感知策略约束,帮助智能体在没有在线交互的情况下有效学习。特点:优势感知,A2PO
利用条件变分自动编码器(CVAE
)来解耦不同的行为策略,明确建模每个动作的优势值,从而优化智能体的决策过程;混合质量数据集,该方法特别设计用于处理来自多种行为策略的混合质量数据集,解决了传统方法在面对不一致动作和回报时可能出现的约束冲突问题;实验验证,在D4RL
基准上进行的大量实验表明,A2PO
在单一质量和混合质量数据集上均优于现有的其他离线强化学习方法,如BCQ
、TD3+BC
和CQL
等。
A2PO
适用于需要从静态数据集中学习的各种应用场景,如机器人控制、自动驾驶和游戏AI
等。通过有效利用历史数据,该方法能够减少探索过程中的风险和成本,同时提升智能体的性能。A2PO
为离线强化学习领域提供了一种新的思路,尤其是在处理复杂数据集时,其优势感知机制显著提高了策略优化的效果。
离线强化学习(Offline Reinforcement Learning, ORL
)旨在从预先收集的数据集中学习有效的控制策略,而无需在线探索。这种方法在多个现实世界应用中取得了前所未有的成功,包括机器人控制和电网控制等。然而,离线强化学习面临着一个严峻的挑战,即分布外(Out-Of-Distribution, OOD
)问题,这涉及到学习策略产生的数据与行为策略收集的数据之间的分布偏移。因此,直接在在线强化学习方法上应用会出现外推误差,即对未见状态-动作对的错误估计。为了解决这个OOD
问题,离线强化学习方法尝试在数据集的分布范围内对智能体施加适当的保守约束,例如,通过正则化项限制学习策略,或对OOD
动作的价值过高估计进行惩罚。离线强化学习在处理混合质量数据集时常常遇到约束冲突问题。具体而言,当训练数据来自多个具有不同回报的行为策略时,现有工作仍然平等对待每个样本约束,而没有考虑数据质量和多样性的差异。这种忽视导致对冲突动作施加不当约束,最终导致更差的结果。
分布外(OOD
):指的是在训练过程中,智能体所选择的状态-动作对不在其训练数据集的分布中。这意味着智能体在决策时可能会遇到未曾见过的情况,从而导致对这些状态-动作对的价值估计不准确。在离线强化学习中,智能体使用的是预先收集的静态数据集,而不是实时与环境交互。因此,智能体无法从环境中获取新的状态-动作对,这限制了其学习能力。当智能体尝试采取在训练数据集中没有出现过的动作时,就会出现OOD
问题。这些未见过的状态-动作对可能会导致Q
值或策略的高估,从而影响整体性能。
A2PO
能够实现来自不同行为策略的优势感知策略约束,其中采用了定制的条件变分自动编码器(CVAE
)来推断与行为策略相关的多样化动作分布,通过将优势值建模为条件变量。在D4RL
基准上进行了大量实验,包括单一质量和混合质量数据集,结果表明,所提出的A2PO
方法在性能上显著优于其他先进的离线强化学习基线,以及优势加权竞争者。
离线强化学习(ORL
)可以大致分为四类:策略约束、价值正则化、基于模型的方法和基于回报条件的监督学习。
- 策略约束:该方法对学习到的策略施加约束,以保持其接近行为策略。之前的研究直接在策略学习中引入了显式约束,例如行为克隆、最大均值差异或最大似然估计。相对而言,最近的努力主要集中在通过近似由
KL
-散度约束推导出的最优策略来隐式实现策略约束。 - 价值正则化:该方法对价值函数施加约束,以缓解对分布外(
OOD
)动作的高估。研究者们尝试通过Q-
正则化项来近似价值函数的下界,以实现保守的动作选择。 - 基于模型的方法:该方法构建环境动态,以估计状态-动作对的不确定性,从而施加分布外(
OOD
)惩罚。 - 基于回报条件的监督学习任务。决策变换器(
Decision Transformer,DT
)构建了一个基于当前状态和额外累积回报信号的变换器策略,并通过监督学习进行训练。Yamagata
等人通过用Q-Learning
结果重新标记回报信号,改善了决策变换器(DT
)策略在次优样本上的拼接能力。然而,在混合质量数据集且无法访问轨迹回报信号的离线强化学习背景下,所有这些方法都平等对待每个样本,而未考虑数据质量,从而导致不当的正则化和进一步的次优学习结果。
优势加权离线强化学习方法通过加权采样来优先训练具有高优势值的离线数据集中的转换。为提高样本效率,Peng
等人引入了一种优势加权最大似然损失,通过轨迹回报直接计算优势值。此外,还有研究使用评论家网络来估计优势值,以进行优势加权策略训练。这项技术已被纳入其他工作的流程当中,用于智能体策略提取。最近,优势加权回归(AW
)方法在解决混合质量数据集中的约束冲突问题上也得到了很好的研究。一些研究提出将优势加权行为克隆作为直接目标函数或显式策略约束。此外,LAPO
框架采用优势加权损失来训练条件变分自编码器(CVAE
),以生成基于状态条件的高优势动作。除了优势加权回归(AW
)方法外,Hong
等人增强了经典离线强化学习训练目标,通过后续回报的权重进行调整。而Hong
等人则直接学习最优策略密度作为权重函数,以便从高性能策略中进行采样。然而,这种优势加权回归(AW
)机制不可避免地减少了数据集中的多样性。相对而言,优势感知策略优化(A2PO
)方法直接将智能体策略条件化于状态和估计的优势值,使得能够有效利用所有样本,无论其质量如何。
优势加权回归(Advantage-Weighted Regression, AWR
)是一种简单且可扩展的离线强化学习算法,旨在利用标准的监督学习方法作为子程序。AWR
的核心思想是通过两个监督回归步骤来训练智能体的策略和价值函数。原理:价值函数回归,首先,AWR
通过回归累计奖励来训练一个价值函数基线。这一步骤的目的是建立一个对环境奖励的估计,使得后续的策略更新能够更好地反映出哪些动作是有效的;策略回归,接下来,AWR
使用加权回归来更新策略。这里,加权是基于每个动作的优势值(advantage
),即某个动作相对于当前策略的期望收益的提升程度。通过这种方式,AWR
能够优先选择那些表现更好的动作,从而提高学习效率。
LAPO
(Latent-Variable Advantage-Weighted Policy Optimization
)是一种针对离线强化学习算法,旨在有效处理异质性数据集中的策略学习问题。该方法通过利用潜在变量生成模型来表示高优势的状态-动作对,从而提高策略的学习效率和效果。原理:潜在空间建模,LAPO
通过学习一个状态条件的潜在空间,生成高优势动作样本。这种方法使得智能体能够选择那些在训练数据中支持的动作,同时有效地解决目标任务;优势加权,该算法采用优势加权策略,通过最大化加权对数似然来学习高回报动作。具体来说,LAPO
通过两步交替进行:估计每个动作的重要性权重,并根据这些权重回归数据集中的动作;Q
函数优化,LAPO
在每次迭代中优化潜在策略,以直接最大化回报。它使用标准强化学习方法(如DDPG
或TD3
)来更新潜在动作,这些动作经过解码器转换为原始动作空间。
我们将强化学习(RL
)任务形式化为一个马尔可夫决策过程(MDP
),定义为一个元组A2PO
实现使用基于actor-critic
框架的TD3
算法作为其基础,以确保稳健的性能。演员网络Q
-网络V
-网络actor-critic
框架涉及两个步骤:策略评估和策略改进。在策略评估阶段,通过时间差(TD
)损失优化Q
-网络
我们将目标网络的参数V
-网络TD
)损失进行优化。在连续控制中的策略改进阶段,演员网络
A2PO
方法由两个关键步骤组成:行为策略解耦和智能体策略优化。在行为策略解耦阶段,使用条件变分自编码器(CVAE
)解开行为策略,基于收集的状态-动作对的优势值条件下的动作分布。通过输入不同的优势值,新的条件变分自编码器(CVAE
)允许智能体推断与各种行为策略相关的不同动作分布。然后,在智能体策略优化阶段,从优势条件导出的动作分布作为解耦的行为策略,建立一个优势感知的策略约束来指导智能体的训练。
注意,离线强化学习将在优化损失上施加保守约束,以应对分布外(OOD
)问题。此外,最终学习到的策略
行为策略解耦
为了实现行为策略解耦,我们采用条件变分自编码器(CVAE
)将不同具体行为策略CVAE
来近似仅基于特定状态CVAE
的架构进行了调整,使其具备优势感知能力。编码器CVAE
的条件。状态-优势条件
因此,给定当前状态CVAE
模型能够生成与优势值
其中采用两个Q
-网络并使用最小操作以确保离线强化学习环境中的保守性。此外,我们使用了CVAE
的性能,提高了生成的可控性。CVAE
模型使用状态-优势条件ELBO
)上采样的小批量数据的对数似然。
其中,KL
-散度损失项的系数,KL
-散度项则使潜在变量分布与先验分布CVAE
训练中,从离线数据集中抽取一小批状态-动作对CVAE
随后通过以上公式进行优化。结合优势条件CVAE
捕捉了CVAE
能够基于状态-优势条件优势感知
的CVAE
被用于为下一阶段的智能体策略优化建立一个优势感知策略约束。
智能体策略优化
智能体是基于actor-critic
框架构建的。评论家由两个Q
-网络V
-网络
智能体的优势感知策略actor-critic
框架,智能体优化包括策略评估和策略改进两个步骤。在策略评估步骤中,通过最小化与最优策略V
-网络
目标网络Q
-网络,两个Q
-网络实体
在第一项中,TD3+BC
的方法,在第一项中添加了归一化系数Q
值目标和正则化之间的尺度平衡,其中Q
值的规模。第一项鼓励在条件
注意,在策略评估和改进过程中,解码器是固定的。A2PO
实现选择TD3+BC
作为其基础框架,以确保其稳健性。
为了解决混合质量离线数据集中的约束冲突问题,这里采用了A2PO
的方法,通过优势感知的策略约束。具体而言,A2PO
利用条件变分自编码器(CVAE
)有效地解耦与各种行为策略相关的动作分布。这是通过将所有训练数据的优势值建模为条件变量来实现的。因此,优势感知的智能体策略优化可以集中于最大化高优势值,同时遵循由混合质量数据集施加的解耦分布约束。实验结果表明,A2PO
成功解耦了潜在的行为策略,并显著优于先进的离线强化学习竞争者。局限性:A2PO
的局限性在于它在训练过程中引入了CVAE
,这可能导致相当大的时间开销。
深度强化学习—结构
强化学习(RL
)在深度神经网络(DNN
)强大的函数逼近能力的支持下,在众多应用中取得了显著成功。然而,它在应对各种现实场景方面的实用性仍然有限,这些场景具有多样化和不可预测的动态、噪声信号以及庞大的状态和动作空间。这一局限性源于数据效率低、泛化能力有限、安全保障缺失以及缺乏可解释性等多个因素。为克服这些挑战并改善在这些关键指标上的表现,一个有前景的方向是将关于问题的额外结构信息纳入强化学习的学习过程中。各种强化学习的子领域已提出了归纳整合的方法。将这些不同的方法整合到一个统一框架下,阐明结构在学习问题中的作用,并将这些方法分类为不同的结构整合模式。并为强化学习研究奠定了设计模式视角的基础。
强化学习(RL
)在序列决策和控制问题中发挥了重要作用,例如游戏、机器人操作和优化化学反应。大多数传统强化学习研究集中在设计解决由任务固有动态引发的序列决策问题的智能体,例如控制套件OpenAI Gym
中的小车倒立摆任务所遵循的微分方程。然而,当环境发生变化时,它的性能就会显著下降。此外,将强化学习智能体部署于还面临额外挑战,例如复杂的动态、难以处理且计算成本高昂的状态和动作空间,以及噪声奖励信号。因此,强化学习的研究开始划分为两种范式来解决这些问题:泛化,开发出能够解决更广泛问题的方法,其中智能体在各种任务和环境中进行训练;可部署性,专门针对具体现实问题而设计的方法,如特征工程、计算预算优化和安全性。泛化与可部署性的交集涵盖了需要处理任务多样性的同时又能针对特定应用进行部署。为了促进这一领域的研究,Mannor
和Tamar
主张采用以设计模式为导向的方法,将方法抽象为专门针对特定问题的模式。
强化学习(RL
)的设计模式之路上,对设计决策与其适用问题属性之间关系的理解存在一些空白。尽管使用状态抽象来处理高维空间的决策似乎是显而易见的,但对于使用关系神经架构来解决某些问题的决策却并不那么显而易见。为此,理解如何将额外的领域知识融入学习流程,将为这一过程增添原则性的支撑。学习问题本身的结构,包括状态空间、动作空间、奖励函数或环境动态的先验知识,是领域知识的重要来源。
尽管这些方法在强化学习的发展历史中一直是研究主题,但在深度强化学习中实现这些目标的方法却散落在现代强化学习研究的各个子领域中。融入结构意味着利用关于可分解性的附加信息,以提高样本效率、泛化能力、可解释性和安全性。一个强化学习(RL
)智能体可以选择适合学习者当前状态和学习目标的学习材料、活动和评估。这种场景充满了结构特性和分解,例如学习风格或学习者的隐性技能熟练度、学习项目中的知识领域之间的关系,以及模块化内容交付机制。虽然可以通过将问题视为一个整体来构建马尔科夫决策过程(MDP
),但这并不一定是最有效的解决方案。相反,可以通过不同方式构建问题,其中关于这种可分解性的先验知识可以将归纳偏见编码到强化学习(RL
)智能体中。关于分解的先验知识还可以通过辅助方法发现,例如大语言模型(LLMs
),这些模型能够分析大量教育内容,提取关键概念、学习目标和难度水平。将附加信息融入学习流程,例如使用LLM
生成内在奖励,可以提高强化学习(RL
)智能体收敛速度,使其对问题变化具有鲁棒性,并帮助提高安全性和可解释性。
强化学习(RL
)的辅助信息可用于提高样本效率、泛化性、可解释性很安全性等指标。辅助信息的另一个特定来源是可分解性,包括潜在空间(Latent
)、因子化(Factored
)、关系型(Relational
)和模块化(Modular
)。强化学习的结构大致分为7
种设计模式:
- 抽象(
Abstraction
):通过简化环境或任务,将复杂问题转化为更易处理的形式。 - 增强(
Augmentation
):利用额外的信息或功能来丰富智能体的学习过程。 - 辅助优化(
Auxiliary Optimization
):引入辅助任务以促进主任务的学习。 - 辅助模型(
Auxiliary Model
):使用辅助模型来提供额外的信息或指导。 - 仓储(
Warehouse
):利用存储机制来管理和重用经验。 - 环境生成(
Environment Generation
):动态生成环境以适应不同的学习需求。 - 显式设计(
Explicitly Designed
):针对特定问题设计特定的解决方案。
在实际应用中,例如一个出租车服务的强化学习(RL
)智能体,需要学习城市的布局、交通模式和乘客行为等信息。直接学习所有这些信息可能会让智能体感到不知所措。因此,通过将问题分解为更易处理的部分并在学习管道中融入结构,可以使问题变得更加可管理。通过将结构假设与分解方法结合,强化学习模型不仅可以提高效率,还能变得更加智能和适应现实世界的挑战。
序列决策问题通常使用马尔可夫决策过程(MDP
)的概念进行形式化,可以写成一个五元组
在情节强化学习(episodic RL
)中,轨迹由在多个情节中收集的经验组成,每个情节都会重置环境。相对而言,在持续设置(continual settings
)中,轨迹包含在单个情节中收集的一段时间内的经验。轨迹return
)
为了使公式中的总和可处理,假设问题的时间范围为固定长度MDP
)相当于确定策略
因此,目标现在可以表述为寻找一个能够最大化
我们还考虑部分可观测马尔可夫决策过程(POMDP
),它建模了状态无法完全观察的情况。POMDP
被定义为一个七元组POMDP
需要维护一个额外的信念,因为多个
强化学习(RL
)算法的任务是通过模拟其转移动态MDP
)进行交互,并学习最优策略完成的。在深度强化学习中,策略是一个深度神经网络,用于生成轨迹MDP
的模型Model-Based RL
)。另一方面,如果没有这样的模型,则需要直接从经验中学习策略,这类方法则属于无模型强化学习(Model-Free RL
)。
强化学习方法还可以根据目标Temporal Difference, TD
)误差,用于学习策略,这类方法属于基于值的强化学习(Value-Based RL
)。时间差分方法中的一个关键思想是自举(bootstrapping
),它使用已学习的值估计来改善前一个状态的估计。在线策略方法直接更新生成经验的策略,而离线策略方法则使用单独的策略来生成经验。基于策略的方法直接对策略进行参数化,并使用策略梯度定理来创建目标MDP
),管道在给定环境
除了通过马尔可夫决策过程(MDP
)对问题进行表征外,还有额外的信息,这些信息可能会提高在样本效率、泛化能力、可解释性和安全性等额外指标上的表现。我们称之为边信息(Side Information
)。对于半监督和无监督设置,边信息是指任何额外的信息,虽然既不是输入空间的一部分,也不是输出空间的一部分,但对学习过程有所贡献。在强化学习的背景下,这可以理解为在原始马尔可夫决策过程(MDP
)定义
在元组Sample Efficiency
)与强化学习的样本复杂度(Sample Complexity
)密切相关。直观上,如果一个管道在相同的时间步数下表现出比基线更高的奖励,就认为它更具样本效率。为了正式定义这一点,使用探索的样本复杂度的概念:给定某个
探索是强化学习中的一个关键问题,改善样本复杂度的一种具体方法是通过使用边信息直接影响探索机制。Amin等人将探索方法根据智能体用于探索世界的信息类型分为以下几类:
- 无奖励探索方法:在这种方法中,外部奖励不会影响行动选择,而是依赖于内在动机的形式进行探索,例如多样性最大化。
- 随机行动选择方法:利用估计的价值函数、策略或奖励来诱导探索行为。
- 乐观/基于奖励的探索方法:采用乐观面对不确定性的范式,倾向于选择具有更高不确定值的行动。
- 深思熟虑的探索方法:使用动态的后验分布(贝叶斯设置)或元学习技术来优化解决探索问题。
- 概率匹配方法:利用启发式选择下一个行动。
迁移和泛化涵盖了评估强化学习(RL
)智能体在不同马尔可夫决策过程(MDP
)上表现的性能指标:迁移评估一个在某个MDP
MDP
one-shot
方式进行,即智能体不对few-shot
方式进行,即智能体在MDP
之间的性能差距决定了迁移性能。
泛化(Generalization
)将这一概念扩展到在一组训练马尔可夫决策过程(MDP
)MDP
当训练和测试的马尔可夫决策过程(MDP
)从同一分布中抽样时,可以对更严格形式的泛化进行评估,即one-shot、few-shot
),这一概念涵盖了任何形式的MDP
分布,包括多任务设置。将边信息融入学习中可以最小化one-shot
情况下实现这一目标的三种方式:
- 增加
和 之间的相似性,通过数据增强、领域随机化、环境- 生成或通过隐式或显式地影响优化目标等技术。 - 处理
和 之间的差异,通过编码归纳偏置、正则化、学习不变性或在线适应。 - 处理特定于强化学习的问题,如探索和非平稳数据分布。
可解释性(Interpretability
)指的是对系统的机制性理解,以使其更加透明。模型可解释性的三个基本属性:
- 可模拟性(
Simulatability
):指的是人类能够模拟系统内部工作原理的能力。 - 可分解性(
Decomposability
):指的是为系统的各个工作部分增加直观理解的能力。 - 透明性(
Transparency
):指的是改善对系统功能的理解,例如量化其收敛特性。
鉴于强化学习(RL
)管道中各个部分的耦合特性,增加可解释性意味着学习一个符合至少一种此类属性的MDP
策略。引入边信息可以帮助在这三个方面提高性能,这取决于边信息的性质及其包含内容。然而,由于可解释性指标可能具有主观性,特别是在强化学习的情况下,这些指标在不同环境下的表现可能会有所不同,因此并未明确提供可解释性的正式度量。相反,通过可分解性的视角来寻求可解释性,检查方法所利用的分解是否可以单独模拟或是否为行动选择机制增加了透明度。
安全性(Safety
)指的是学习能够最大化回报期望的策略,这些策略在学习和/或部署过程中确保合理的系统性能/或遵循与安全相关的约束。例如,基于模型的强化学习方法通常会学习环境模型,然后利用该模型规划一系列动作。然而,这些模型往往是从噪声数据中学习的,将它们部署到现实世界中可能导致智能体进入灾难性状态。因此,安全强化学习(Safe-RL
)文献中的方法专注于在训练过程中引入与安全相关的约束,以减轻此类问题。虽然强化学习中的安全性本身是一个广泛的领域,但我们在这项工作中考虑了两个特定类别:带约束的安全学习和安全探索。前者将学习过程置于一个或多个约束
其中Safe Exploration
)修改了探索过程,以外部知识为依据,转化为将边信息融入探索过程。虽然从直观上看,这与使用边信息进行定向探索重叠,这种定向探索的最终目标是确保安全,这可能会以牺牲样本效率或泛化能力为代价。
可分解性的光谱与结构原型。如下图所示,在光谱的左端存在单一结构分解,其中可以学习到
可分解性是指一个系统的特性,允许将其拆分为更小的组件或子系统,这些组件或子系统可以独立于较大系统进行分析、理解,并可能更高效地学习。在一个可分解的系统中,每个子系统的短期行为大致独立于其他子系统的短期行为。从长远来看,任何子系统的行为仅在聚合的方式上依赖于其他子系统的行为。强化学习(RL
)流程可以沿两个轴线观察可分解性:
- 问题分解:即环境参数化、状态、动作、转移和奖励;
- 解决方案分解:即学习到的策略、价值函数、模型和训练过程。
可分解性的光谱提供了一种直观的方法来理解一个系统在这方面的位置。在光谱的一端,问题是不可分解的,而在另一端,问题可以被分解为弱相互作用的子问题。同样,前者的解决方案是单一的,而后者则是模块化的。通过标记四种不同的可分解原型来捕捉这一问题-解决方案的相互作用。通过在分解的粒度上学习适当的表示,可以纳入分解。
- 潜在分解(
Latent Decomposition
):潜在表示在复杂环境中非常有帮助,尤其是当基础结构不明确或非平稳时。在这种观点下,管道组件可以通过潜在表示 进行近似,然后将其整合到学习过程中。学习过程中依赖于 的量现在可以重新以 为条件进行调整: 潜在状态和动作,状态的潜在表示被用于处理诸如丰富观察空间和上下文设置等场景。潜在动作在具有随机动作集的设置中也得到了类似的探索;潜在转移和奖励,虽然潜在状态允许分解转移矩阵,另一种直接解决该问题的方法是将转移矩阵分解为低秩近似。线性马尔可夫决策过程和基于模型的强化学习应用研究了这种直接分解形式。通过假设奖励信号是由潜在函数生成的,该函数可以作为辅助学习目标进行学习,类似的分解也可以应用于奖励。 - 因子分解:稍微偏离了单一性质,通过使用(潜在)因子
来表示 。因子化的一个关键方面是,这些因子可能在它们对学习动态的影响上施加某种形式的条件独立性。 因子状态和动作,因子状态和动作空间在因子马尔可夫决策过程( Factored MDPs
)中得到了探索。在这种设置中,传统的方法使用动态贝叶斯网络来捕捉后续状态分布。因子动作表示也被用于处理高维动作。这些方法要么在高维动作集的子集上施加因子化结构,要么导致最终动作的Q
值施增加这种结构。关键是,这些方法可以利用因子化所带来的某种独立性,无论是在状态表示还是转移中。因子奖励,结合因子状态或独立建模,因子奖励被用于建模扰动奖励,或使用因果先验对潜在变量模型进行因子化。虽然因子马尔可夫决策过程并不导致因子策略,但结合状态和奖励的因子化可以导致价值函数的因子化。 - 关系分解:除了使用一组因子来表示问题外,还可以利用不同因子之间的相互作用信息。通常,这些关系存在于场景中的实体之间,并用于基于归纳逻辑的学习方法。传统上,这些关系仅限于一阶逻辑,但关系结构也可以通过图形来捕捉。从数学上讲,附加信息
将原始实体 作为输入,并将其映射到因子集 上的一个函数 。因此, 输出关于 的函数。 具体而言, 是一个描述 中 个实体组之间关系的函数( 为关系的阶数)。因此, 的输入是 元组的因子,它将这些因子映射到一个符号的多重集合 (例如坐标、距离度量或逻辑谓词)。换句话说, 使用符号 描述 个输入实体之间的关系,而多重集合能够描述不同实体之间可能存在相似关系的情况。 这种表示方法使我们能够讨论 中实体之间关系的泛化以及不同形式的 ,并帮助我们规避枚举空间的维度问题。关系状态和动作,关系表示被用于建模关系马尔可夫决策过程( Relational MDPs
)和面向对象的马尔可夫决策过程(Object-Oriented MDPs
)。它们使用对象、谓词的一阶表示来描述一组基础MDPs
,从而表示因子化状态空间。这种表示方法能够更有效地捕捉实体之间的交互复杂结构。此外,实体之间交互的排列可以帮助定义在动态上有所不同的新MDPs
,从而有助于泛化研究。状态也可以表示为图,或通过使用符号归纳偏差输入到学习模块中,作为原始状态的补充。动作关系有助于处理智能体的多个动作且动作集合非常大的实例。这些方法使用注意力机制或图来捕捉关系,从而为高维动作空间提供可扩展性。此外,状态与动作之间的关系帮助定义了意图和可供性等概念。关系价值函数和策略。传统的关系MDPs
研究了如何表示和构建价值函数或策略的一阶表示,以便对新实例进行泛化。这些包括回归树、决策列表、代数决策图、线性基函数以及图拉普拉斯算子。最近的方法开始关注深度神经网络(DNN
)表示,并扩展到以关系方式建模机器人任务中的形态等问题,或学习扩散算子以构建内在奖励。关系任务,一条平行的研究线关注在多任务设置中捕捉关系,其中任务扰动以目标及其相应奖励的形式存在。大多数工作旨在将这些关系集成到优化过程中,或将其作为模型额外捕捉。 - 模块化分解:模块化分解存在于可分解性的光谱另一端,在那里可以为每个分解的实体
独立学习各自的价值函数或策略。具体而言,一个任务可以被分解为子系统 ,针对这些子系统,可以建立独立的学习模型、价值函数和策略。 模块化( modularity
)可以沿以下几个轴存在:- 空间模块化允许学习特定于状态空间某些部分的量,从而有效地减少状态的维度;
- 时间模块化允许将任务分解为学习视野内的序列,从而在序列中学习模块化量;
- 功能模块化允许将策略架构分解为功能上模块化的部分,即使问题在空间和时间上是单一的。
这种分解的一个潜在结果是层次结构的出现,当学习问题利用这种层次关系时,这些问题就属于层次化强化学习(Hierarchical RL, HRL
)的范畴。学习到的策略也可以表现出层次性,其中每个策略可以选择低级策略来执行子任务。每个层级可以被视为一个规划问题或学习问题,从而允许通过层次结构结合规划和学习。然而,层次结构并不是模块化的必要条件。状态和目标的模块化,状态空间的模块化分解主要在高层规划和HRL
方法的状态抽象中进行研究。诸如Q
分解的方法探索了通过将单个智能体在状态-动作空间部分上学习的Q
值传递给下一个动作的仲裁者来设计智能体
。此外,部分模型仅在基于模型的设置中对观察-动作空间的特定部分进行预测。目标在某些方法中被明确考虑,这些方法要么使用目标作为层次级别之间的接口,要么作为任务规范方法的输出。
动作空间的模块化:指的是基于学习到的动作抽象来调整策略。此类方法的经典例子属于可选,其中策略与动作的时间抽象相关联。在层次化强化学习(HRL
)方法中,高层次的学习和规划基于低层次策略及其执行的终止条件。组合策略:设置组合策略,通过将已学习的策略视为基本元素来实现。这些方法将这些基本元素输入到离散优化问题中进行选择,或用于集成和蒸馏的连续优化设置。在这种设置中,模块化通过构造表现出来,并且是构建解决方案的核心因素。尽管在这种范式中,通过集成、选择或蒸馏获得的最终策略可能是单一的,但获得这些策略的过程完全是分布式的。
在定义了不同形式的可分解性和边信息实现的不同目标之后,现在通过理解将结构纳入学习过程的方法来连接这两者。我们假设解决方案空间中存在某种形式的结构,这可以将归纳偏差纳入学习管道。为了理解如何将可分解性纳入强化学习(RL
)管道,我们可以沿两个轴线进行潜在分类:分解类型(潜在、因子、关系和模块化)和应用分解的管道部分(例如状态或动作)。然而,这种分类忽略了一个重要部分:管道如何基于边信息进行调整。例如,关于目标的信息可以用于学习状态抽象,或直接作为输入提供给策略网络。这两种设计决策在实践中可能产生不同的影响。模式是对强化学习管道