UMBRELLA

未雨绸缪,举重若轻

AGI路线图

我们定义了三个AGI级别及其主要特征。主要目标是定位当前的AI发展,量化现有的局限性,并激励以实现下一级别的能力、评估和对齐。如下图所示:

阅读全文 »

AGI系统:实现AGI机制

超越Transformers:尽管Transformers架构取得了巨大的成功,许多研究尝试寻找其他设计来克服其一些缺点。混合专家(MoEs)使用多个“专家”子网络组成的条件模块替换了Transformer模型中的稠密层。使用路由机制词元级任务级动态决定使用哪个专家。尽管拥有多个专家,稀疏的MoEs通常可以在相同模型大小下更快地训练和解码,并且预计能够在不同的抽象任务中实现。然而,MoEs在推理过程中也带来了其他挑战,例如将所有专家加载到VRAM中的要求以及在多个节点上分发专家

阅读全文 »

论文解读

这篇文章SFT记忆,RL泛化:基础模型后训练的比较研究,从标题中也可以看出比较的的对象主要是监督微调(SFT)和强化学习(RL),主要探讨了监督微调(SFT)和强化学习(RL)在基础模型后训练(post training)中的不同作用。特别是在模型的泛化能力记忆力方面的比较。

阅读全文 »

强化学习—结构

强化学习的结构大致分为7设计模式抽象模式(Abstraction Pattern)、增强模式(Augmentation Pattern)、辅助优化模式(Auxiliary Optimization Pattern)、辅助模型模式(Auxiliary Model Pattern)、仓储模式(Portfolio Pattern)、环境生成模式(Environment Generation Pattern)、显式设计模式(Explicitly Designed)。

阅读全文 »

A2PO

离线强化学习旨在利用离线数据集来构建有效的智能体策略,而无需在线交互。这种方法需要在行为策略的支持下施加适当的保守约束,以应对分布外问题。然而,现有工作在处理来自多个行为策略的离线数据集时,常常面临约束冲突问题,即不同的行为策略可能在状态空间中表现出不一致的动作和不同的回报。为了解决这一问题,近期的优势加权方法优先考虑具有高优势值的样本进行智能体训练,但不可避免地忽视了行为策略的多样性。

阅读全文 »

递归内省

递归内省(Recursive Introspection)是一种新方法,旨在教授语言模型智能体(如大语言模型LLMs)如何自我改进。该方法的核心在于使模型能够对自身行为进行内省推理纠正错误。其主要特点:自我改进能力递归内省的目标是使语言模型能够在多轮交互中逐步改善其响应。这种方法强调通过反复的反馈调整,模型能够识别并纠正先前的错误;RISE方法,该方法被称为RISE(Recursive IntroSpEction),是一种微调技术,允许模型在面对复杂问题时,通过观察之前的失败尝试和额外的环境反馈来调整其策略多轮数据收集与训练RISE借鉴了在线模仿学习强化学习的原则,提出了多轮数据收集和训练策略,以增强LLM在后续迭代中递归检测纠正错误的能力。

阅读全文 »

RLHF

人类反馈的强化学习(RLHF)是一种结合了人类反馈强化学习技术的机器学习方法,旨在提高人工智能模型的表现,尤其是在生成式人工智能(如LLM)中的应用。人类反馈的强化学习(RLHF)的核心思想是利用人类提供的反馈来优化机器学习模型,使其能够更好地满足用户需求和期望。传统的强化学习依赖于预定义的奖励函数来指导学习,而RLHF则将人类的主观反馈纳入其中,以便更灵活地捕捉复杂任务中的细微差别和主观性。

阅读全文 »

泛化(Generalization)

强化学习(RL)可用于自动驾驶汽车和机器人等领域,可以在现实世界中使用强化学习(RL)算法。现实是多种多样、非平稳和开放的,为了处理各种情况,强化学习(RL)需要对环境的变化具有鲁棒性,并且能够在部署期间转移和适应从未见过的(但相似的)环境。强化学习(RL)中的泛化就是创建可以解决这些困难的方法,挑战以前的强化学习(RL)研究中的一个常见假设,即训练和测试环境是相同的。

阅读全文 »

ML-Agents

强化学习(RL)的挑战之一是创建环境。幸运的是,我们可以使用游戏引擎来实现它。这些引擎(例如UnityGodotUnreal Engine)是为创建视频游戏而开发的工具包。它们非常适合创建环境:它们提供物理系统、2D/3D渲染等。Unity ML-Agents Toolkit是一个Unity游戏引擎的插件,可以使用Unity游戏引擎作为环境构建器来训练智能体(Agent)。Unity ML-Agents Toolkit提供了许多出色的预制环境。

阅读全文 »

介绍

强化学习(RL)背后的想法是智能体(Agent)通过与环境(Environment)交互(通过反复试验),并从环境中接收奖励(Rewards)作为执行动作(Action)的反馈来学习。从环境的互动中学习,源自于经验。这就是人类与动物通过互动进行学习的方式,强化学习(RL)是一个解决控制任务(也称决策问题)的框架,通过构建智能体(Agent),通过反复试验与环境交互从环境中学习并获得奖励(正面或负面)作为独特反馈。强化学习(RL)只是一种从行动中学习的计算方法。

阅读全文 »
0%