UMBRELLA

未雨绸缪,举重若轻

强化学习—结构

强化学习的结构大致分为7设计模式抽象模式(Abstraction Pattern)、增强模式(Augmentation Pattern)、辅助优化模式(Auxiliary Optimization Pattern)、辅助模型模式(Auxiliary Model Pattern)、投资组合模式(Portfolio Pattern)、环境生成模式(Environment Generation Pattern)、明确设计模式(Explicitly Designed)。

阅读全文 »

A2PO

离线强化学习旨在利用离线数据集来构建有效的智能体策略,而无需在线交互。这种方法需要在行为策略的支持下施加适当的保守约束,以应对分布外问题。然而,现有工作在处理来自多个行为策略的离线数据集时,常常面临约束冲突问题,即不同的行为策略可能在状态空间中表现出不一致的动作和不同的回报。为了解决这一问题,近期的优势加权方法优先考虑具有高优势值的样本进行智能体训练,但不可避免地忽视了行为策略的多样性。

阅读全文 »

递归内省

递归内省(Recursive Introspection)是一种新方法,旨在教授语言模型智能体(如大语言模型LLMs)如何自我改进。该方法的核心在于使模型能够对自身行为进行内省推理纠正错误。其主要特点:自我改进能力递归内省的目标是使语言模型能够在多轮交互中逐步改善其响应。这种方法强调通过反复的反馈调整,模型能够识别并纠正先前的错误;RISE方法,该方法被称为RISE(Recursive IntroSpEction),是一种微调技术,允许模型在面对复杂问题时,通过观察之前的失败尝试和额外的环境反馈来调整其策略多轮数据收集与训练RISE借鉴了在线模仿学习强化学习的原则,提出了多轮数据收集和训练策略,以增强LLM在后续迭代中递归检测纠正错误的能力。

阅读全文 »

RLHF

人类反馈的强化学习(RLHF)是一种结合了人类反馈强化学习技术的机器学习方法,旨在提高人工智能模型的表现,尤其是在生成式人工智能(如LLM)中的应用。人类反馈的强化学习(RLHF)的核心思想是利用人类提供的反馈来优化机器学习模型,使其能够更好地满足用户需求和期望。传统的强化学习依赖于预定义的奖励函数来指导学习,而RLHF则将人类的主观反馈纳入其中,以便更灵活地捕捉复杂任务中的细微差别和主观性。

阅读全文 »

泛化(Generalization)

强化学习(RL)可用于自动驾驶汽车和机器人等领域,可以在现实世界中使用强化学习(RL)算法。现实是多种多样、非平稳和开放的,为了处理各种情况,强化学习(RL)需要对环境的变化具有鲁棒性,并且能够在部署期间转移和适应从未见过的(但相似的)环境。强化学习(RL)中的泛化就是创建可以解决这些困难的方法,挑战以前的强化学习(RL)研究中的一个常见假设,即训练和测试环境是相同的。

阅读全文 »

ML-Agents

强化学习(RL)的挑战之一是创建环境。幸运的是,我们可以使用游戏引擎来实现它。这些引擎(例如UnityGodotUnreal Engine)是为创建视频游戏而开发的工具包。它们非常适合创建环境:它们提供物理系统、2D/3D渲染等。Unity ML-Agents Toolkit是一个Unity游戏引擎的插件,可以使用Unity游戏引擎作为环境构建器来训练智能体(Agent)。Unity ML-Agents Toolkit提供了许多出色的预制环境。

阅读全文 »

介绍

强化学习(RL)背后的想法是智能体(Agent)通过与环境(Environment)交互(通过反复试验),并从环境中接收奖励(Rewards)作为执行动作(Action)的反馈来学习。从环境的互动中学习,源自于经验。这就是人类与动物通过互动进行学习的方式,强化学习(RL)是一个解决控制任务(也称决策问题)的框架,通过构建智能体(Agent),通过反复试验与环境交互从环境中学习并获得奖励(正面或负面)作为独特反馈。强化学习(RL)只是一种从行动中学习的计算方法。

阅读全文 »

介绍

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注智能体(agent)如何通过与环境的互动来学习最优策略,以最大化累积奖励。与监督学习无监督学习不同,强化学习并不依赖于标注数据,而是通过试错(trial and error)的方法来优化决策。在强化学习中,主要涉及以下几个核心要素:智能体(Agent),执行动作以影响环境的实体;环境(Environment),智能体所处的外部系统,它对智能体的动作做出反应并提供反馈;状态(State),描述环境在某一时刻的情况,智能体根据当前状态做出决策;动作(Action),智能体在特定状态下可以选择的行为;奖励(Reward),环境对智能体行为的反馈信号,通常是一个标量值,用于评估该行为的好坏;策略(Policy),定义了智能体在特定状态下选择动作的规则,可以是确定性的也可以是随机性的;价值函数(Value Function),用于评估在某一状态下,智能体能够获得的长期回报期望。

阅读全文 »

介绍

搜索引擎是一种根据用户需求,通过特定算法和策略从互联网上检索信息并反馈给用户的系统。搜索引擎可以被定义为一个自动化系统,它通过计算机程序从互联网收集信息,经过组织和处理后,为用户提供检索服务搜索引擎的发展经历了多个阶段:第一代搜索引擎(1994):以人工分类为主,代表有Yahoo;第二代搜索引擎:利用关键字进行查询,Google是其代表;第三代搜索引擎:强调个性化和智能化,结合人工智能技术;第四代搜索引擎:应对信息多元化,采用更精确的特征提取文本处理技术

阅读全文 »

重排 - 多样性算法(DPP)

行列式点过程(determinantal point process, DPP)是一种概率模型,最早引入于量子物理学中,用于描述费米子系统的分布。DPP的核心思想是能够有效地从一个全集中抽取出具有高相关性和多样性的子集,广泛应用于推荐系统、机器学习等领域,DPP是目前推荐系统重排多样性公认最好的多样性算法。

阅读全文 »
0%