机器学习(ML)(二十五) — 强化学习探析
强化学习—结构
强化学习的结构大致分为7
种设计模式:抽象模式(Abstraction Pattern
)、增强模式(Augmentation Pattern
)、辅助优化模式(Auxiliary Optimization Pattern
)、辅助模型模式(Auxiliary Model Pattern
)、投资组合模式(Portfolio Pattern
)、环境生成模式(Environment Generation Pattern
)、明确设计模式(Explicitly Designed
)。
抽象模式
抽象模式利用结构信息在强化学习(RL
)管道中创建抽象实体。对于任何实体
找到合适的抽象本身可能是一项具有挑战性的任务。过多的抽象可能导致关键信息的丢失,而过少的抽象则可能无法显著降低复杂性。因此,联合学习抽象的学习方法将这种粒度纳入学习过程。早期工作涉及状态抽象的理论。最近的研究主要利用抽象来解决泛化问题。泛化是抽象最常见的应用案例。然而,前面提到的抽象优势通常与样本效率提升和安全性交织在一起。
泛化:状态抽象是提高泛化性能的标准选择,通过使用诸如不变因果预测、相似性度量、自由能最小化(Free Energy Minimization
)和解耦(disentanglement
)等方法,将共享动态捕捉到抽象状态空间中。值函数作为多任务环境中共享动态的时间抽象。后继特征(Successor Features, SF
)利用值函数作为抽象,利用潜在奖励和动态分解。后续研究将其与广义策略迭代(Generalized Policy Iteration
)和通用值函数逼近器(Universal Value Function Approximators)结合使用。另一方面,值函数的因式分解有助于提高样本效率和泛化能力。关系抽象通过将符号空间纳入强化学习管道来促进泛化。这些抽象有助于在分层框架中结合规划方法。此外,关系抽象可以帮助抽象出一组MDP
的一般特征,从而使方法能够在抽象状态和动作上学习可泛化的Q
值,这些Q
值可以转移到新任务中。此外,抽象还可以通过压缩状态空间、抽象自动机、跨任务动态的模板,甚至与选项结合以保留最优值来实现分层设置中的泛化。