机器学习(ML)(二十五) — 强化学习探析

强化学习—结构

强化学习的结构大致分为7设计模式抽象模式(Abstraction Pattern)、增强模式(Augmentation Pattern)、辅助优化模式(Auxiliary Optimization Pattern)、辅助模型模式(Auxiliary Model Pattern)、投资组合模式(Portfolio Pattern)、环境生成模式(Environment Generation Pattern)、明确设计模式(Explicitly Designed)。

抽象模式

抽象模式利用结构信息在强化学习(RL)管道中创建抽象实体。对于任何实体抽象模式利用结构信息创建,其在学习过程中取代的角色。在出租车示例中,状态空间可以抽象为出租车当前的网格单元、当前乘客的目的地网格单元,以及出租车是否正在载客。这显著简化了状态空间,相较于表示城市网格的完整细节。动作空间也可以抽象为向四个主要方向移动,以及接载和放下乘客。行为抽象与基于历史的抽象密切相关,因为它们解决类似的应用,即将抽象状态和历史转化为可以用于强化学习的低维表示。

找到合适的抽象本身可能是一项具有挑战性的任务。过多的抽象可能导致关键信息的丢失,而过少的抽象则可能无法显著降低复杂性。因此,联合学习抽象的学习方法将这种粒度纳入学习过程。早期工作涉及状态抽象的理论。最近的研究主要利用抽象来解决泛化问题。泛化是抽象最常见的应用案例。然而,前面提到的抽象优势通常与样本效率提升和安全性交织在一起。

泛化状态抽象是提高泛化性能的标准选择,通过使用诸如不变因果预测相似性度量自由能最小化(Free Energy Minimization)和解耦(disentanglement)等方法,将共享动态捕捉到抽象状态空间中。值函数作为多任务环境中共享动态的时间抽象。后继特征(Successor Features, SF)利用值函数作为抽象,利用潜在奖励动态分解。后续研究将其与广义策略迭代(Generalized Policy Iteration)和通用值函数逼近器(Universal Value Function Approximators)结合使用。另一方面,值函数因式分解有助于提高样本效率和泛化能力。关系抽象通过将符号空间纳入强化学习管道来促进泛化。这些抽象有助于在分层框架中结合规划方法。此外,关系抽象可以帮助抽象出一组MDP的一般特征,从而使方法能够在抽象状态动作上学习可泛化的Q值,这些Q值可以转移到新任务中。此外,抽象还可以通过压缩状态空间抽象自动机跨任务动态的模板,甚至与选项结合以保留最优值来实现分层设置中的泛化