机器学习(ML)(二十六) — 强化学习探析

论文解读

这篇文章SFT记忆,RL泛化:基础模型后训练的比较研究,从标题中也可以看出比较的的对象主要是监督微调(SFT)和强化学习(RL),主要探讨了监督微调(SFT)和强化学习(RL)在基础模型后训练(post training)中的不同作用。特别是在模型的泛化能力记忆力方面的比较。

监督微调(Supervised Fine-Tuning,SFT)是一种在机器学习领域广泛应用的技术,特别是在迁移学习的背景下。它主要用于将预训练模型调整到特定的下游任务上,以提高模型在该任务上的表现。SFT通常分为以下几个步骤:

  • 预训练:首先,基础模型在大规模数据集上进行预训练,学习语言模式、语法和上下文。这一阶段使模型具备广泛的语言理解能力。
  • 数据标注:为微调准备一个特定任务的数据集,每个数据点都带有正确的输出或答案。这些标注数据对于监督学习至关重要,因为它们指导模型在微调过程中的参数调整。
  • 微调:将预训练模型在标注数据集上进一步训练,调整其参数以提高在特定任务上的性能。例如,如果模型需要处理法律文件,则可以使用标注的法律文本进行微调,使其更好地理解法律术语和结构。

监督微调(SFT)和强化学习(RL)常用于基础模型的两种后训练技术。研究表明,监督微调(SFT)倾向于记忆训练数据,而强化学习(RL)则更关注于适应新场景和任务。论文引入了两个评估任务:GeneralPoints:一个算术推理卡牌游戏,要求模型使用四个数字创建等于目标数字(默认是24)的方程。V-IRL:一个真实世界的导航环境,模型需要根据视觉标志导航到目标位置。这两个任务都包含规则变体和视觉变体,用于评估模型在未见数据上的泛化能力。

虽然监督微调(SFT)和强化学习(RL)在基础模型训练中被广泛使用,但它们对泛化的不同影响仍然不清楚,这使得构建可靠和稳健的人工智能系统变得具有挑战性。分析基础模型的泛化能力中的一个关键挑战是区分数据记忆可转移原则的获取。因此,作者研究了一个关键问题:监督微调(SFT)或强化学习(RL)是否主要记忆训练数据,或者它们是否学习了可以适应新任务变体的可泛化原则。为了解决这个问题,需关注泛化的两个方面:基于文本的规则泛化视觉泛化。对于文本规则,研究模型应用学习到的规则(给定文本指令)到这些规则变体的能力。对于视觉-语言模型(VLMs),视觉泛化衡量在给定任务中对视觉输入变化(如颜色和空间布局)的表现一致性。为了研究基于文本视觉的泛化,使用了两个不同的任务,这些任务体现了基于规则和视觉变体。第一个任务是GeneralPoints,这是一个算术推理卡牌游戏任务,旨在评估模型的算术推理能力。在GeneralPoints中,模型接收四张卡片,并需要使用每张卡片的数值计算目标数字(默认是24),每张卡片只能使用一次。第二个任务是V-IRL,这是一个关注模型空间推理能力的真实世界导航任务。采用了类似于多步RL框架,在对主干模型进行SFT后实例化RL,使用序列修订公式。在GeneralPointsV-IRL中,观察到RL学习到了可泛化的规则(以文本形式表达),其分布内性能提升也能转移到未见规则上。相反,SFT似乎只是记忆了训练规则,并未能实现泛化。除了基于文本的规则泛化外,还进一步探索了视觉领域的泛化,观察到RL也能对视觉分布外任务进行泛化,而SFT仍然无法做到泛化。作为视觉分布外泛化能力的副产品,通过多轮RL方法在V-IRL小型基准测试中泛化能力提升了33.8%44.0% → 77.8%),突显了RL的泛化能力。为了理解RL如何影响模型的视觉能力,对GeneralPoints进行了额外分析,揭示使用基于结果奖励函数训练RL能够改善视觉识别能力。与SFT相比,RL表现出更好的泛化能力,但SFT仍然有助于稳定模型输出格式,从而使RL能够实现其泛化能力的提升。同样增加最大步骤数来扩大推理计算时间也可以提高泛化能力

实验结果表明:

  • RL的泛化能力:研究发现,经过RL训练的模型,特别是在使用基于结果的奖励进行训练时,能够在文本和视觉变体之间有效泛化。与此相比,SFT则更倾向于记忆训练数据,并且在面对分布外场景时表现不佳。
  • SFT的记忆偏向SFT训练的模型往往会对特定的输入模式进行匹配,而不是理解其背后的逻辑。例如,在GeneralPoints任务中,如果模型仅仅记住了特定卡片颜色与数字的关联,当规则变化时,其表现会显著下降。
  • RL对视觉识别能力的提升:研究还发现,RL不仅提高了模型在文本任务中的表现,也增强了其在视觉任务中的基础视觉识别能力。
  • SFTRL的互补性:尽管RL泛化能力上表现更好,但研究表明,SFT仍然对有效的RL训练至关重要。SFT能够稳定模型输出格式,从而为后续的RL提供良好的基础。

AGI 探析

通往人工通用智能的道路不仅是一场技术征程,更是一次哲学层面的探索——它要求我们重新诠释数字时代智能伦理的深层内涵。———— Alex Kim,未来洞察研究院人工智能伦理部主任。

要开始探讨我们距离AGI人工通用智能)还有多远这一命题,首先需要以人工智能发展史为锚点,理解人类对更先进系统的深层诉求。通过本文,我们希望以大型语言模型(LLMs)等现代AI系统为观测视角,为当前AGI发展进程提供证据与洞见。核心目标在于审慎叩问:LLMs是否就是终极答案?只有秉持这种持续探索的科研自觉,我们才有可能真正触碰AGI的疆界。

人工智能简史人工智能(AI)的发展通过其在视觉感知语言理解推理优化等领域的强大能力深刻改变了人类社会。典型案例是DeepMind2021年推出的AlphaFold,彻底革新了蛋白质结构预测领域,推动了生物科学研究的前沿突破。值得注意的是,AI发展历程并非一帆风顺:

  • 奠基阶段(1950s-1970s):早期研究聚焦符号主义连接主义,为智能计算的范式奠定理论基础。受限于算力与数据规模,研究多停留在概念验证层面。
  • 寒冬与复苏(1980s-1990s):因技术预期过高与现实落差,AI经历发展低谷。机器学习神经网络理论突破为技术复苏注入动力。
  • 深度学习革命(2010s至今):图像识别语音识别取得跨越式发展,ChatGPT的横空出世标志着大语言模型(LLMs)开启AI研究的新纪元。统一知识表征体系,多任务协同求解能力突破

尽管人工智能(AI)为人类社会带来了巨大的改善,但社会的物质和精神需求日益增长,使得人们对AI仅提供的便利性感到不满足。因此,实现能够高效、有效地执行更广泛任务的人工通用智能(AGI)已成为一个迫切关注的问题。AGI被描述为一种至少在大多数任务上与人类一样能力的AI系统(Wang et al., 2018; Voss and Jovanovic, 2023)。我们到底距离AGI还有多远,以及如何实现AGI?为了探讨这些问题,现有研究主要分为三个类别:定义与概念技术方法与应用、以及伦理与社会影响

  • 定义与概念Wang等人(2018)从与人类的比较角度定义了AGI的概念,并提出了不同层次的AGIVossJovanovic(2023)为实现AGI提供了方向,设定了与AGI相关的人类化要求。
  • 技术方法与应用Yan(2022)和Wang等人(2019)提出,AGI可以通过将逻辑深度学习相结合来实现。Das等人(2023)认为,AGI技术的发展存在许多风险,如安全和隐私问题。
  • 伦理与社会影响Rayhan(2023)认为,人们应该考虑创建AGI伦理影响,包括对人类社会、隐私和权力动态的影响。BugajGoertzel(2007)提出了五项伦理原则及其对AGI交互的影响。这些研究从不同角度刻画了AGI,但仍缺乏对AGI发展过程的系统性评估和对AGI目标的明确定义,这使得衡量当前AI发展与AGI未来的差距变得困难,并且难以提出实现AGI的可能路径。

由上图所示,从AGI(人工通用智能)所需的主要能力概述开始,分为内部能力、与外部世界的接口连接以及支持这些功能的基础设施系统。在部署方面,需要更为复杂的对齐程序,以在约束和人类期望下释放AGI系统的潜力。此外,我们描绘了一个路线图。AGI的三个层次:胚胎AGI超人类AGI终极AGI,帮助我们定位当前状态、相关评估框架以及对一些可能阻碍我们向AGI前进的关键问题的见解。

由上图所示,AGI内部,即AGI的“大脑”,由四个主要组成部分:感知推理记忆元认知。人类大脑的复杂性,以及其特定功能区域分别负责认知行为的不同方面,为AGI系统的架构提供了一个引人入胜的类比。类似于人类大脑分为感官处理、情感、认知和执行功能等区域,AGI系统的“大脑”也可以基本上分为四个主要组成部分:感知记忆推理能力元认知。这些组成部分反映了人类认知的基本方面,并在创建一个真正智能的系统中扮演着不同的关键角色。感知是指在AGI与其环境交互过程中对感官信息的组织和解释,被视为AGI的基本能力,包括视觉、听觉、触觉、嗅觉等。AGI推理是基于对环境的感知,并对环境执行行动。AGI与环境的互动,包括感知的获取和行动的执行,将被保存为AGI记忆。这些记忆将被用于AGI元认知

AI感知

感知是指系统解释和理解周围世界的能力。这涉及对感官数据的处理和分析,以构建对环境的动态和上下文理解。自然语言作为人类交流的主要方式,已经从早期人类互动的起源发展到复杂的系统,如大语言模型(LLMs)。这些模型扩展了理解和参与对话以及执行创意任务的能力。然而,文本本身可能无法完全捕捉到现实世界经验的深度,这凸显了多模态智能的重要性,即结合图像、视频和音频以实现更丰富的人机交互。从传统LLMs多模态模型的转变代表了一次重大的技术飞跃,促进了跨多种输入的更加逼真的互动。这一转变由近期多模态LLMs的发展所突显,解决了仅依赖语言理解的局限性,并为涉及多种数据形式的复杂挑战打开了大门。整合各种模型应遵循两个原则:1)理解“如何”将外部模态信息纳入,并确保不同模块的无缝整合;2)确定“使用什么”信息以保持原始模型的完整性并增强整体能力。利用现成的LLMs多模态编码器的主要目标是在它们之间建立无缝连接。这种连接可以是外部的,即在不改变现有模型结构的情况下对齐多模态知识,也可以是内部的,允许LLMs与其他模态编码器进行更为复杂的交互。这些方法通常需要大量训练,例如创建一个可学习的接口,将LLM与非语言模态(特别是视觉)联系起来。类似于LLM预训练微调多模态LLMs(MLLMs)遵循一个基于预训练LLM的两阶段训练范式,并将其适应多模态领域。第一阶段,称为视觉-语言对齐阶段,旨在使语言模型能够理解视觉标记。第二阶段涉及多模态指令调整,以使模型与人类感知相一致。这些阶段根据LLM多模态编码器之间的组合架构有明确的分类。

模态的外部连接,外部方法基于通过额外结构和现有模型将视觉分支与LLMs大语言模型)连接起来的理念。

  • 投影式模态连接器存在于LLMs和多模态编码器之外,可以通过简单的线性投影或相对复杂的选择方法来实现。这种类型的MLLM多模态大语言模型)通常在两个对齐训练阶段激活投影层或LLMs
  • 查询式:这些MLLMs使用设计更为复杂的连接器,但仍然独立于LLMs多模态编码器之外。这种模型本质上利用了类似注意力的交互,即在可学习变量与视觉标记之间进行交互。由于其连接器能够学习到比简单投影式更复杂的数据模式,因此仅激活连接器也能获得更优的多模态性能。
  • 语言式:语言作为接口是将所有现成模型整合为一个整体的流行方向。这些方法利用各种预构建模块进行生成和其他任务,LLMs主要负责模块的协调。利用工具的一个主要优势是这些系统可以更灵活地进行规划,以便做出决策或创作多媒体内容,语言作为桥梁。一个突出的最新方法是GPT-4V模型,它可以通过连接最先进的生成器生成生动的图像。虽然这些方法为各种任务提供了更广泛的技术解决方案,但它们在实现与接口式方法相当的性能深度方面通常不如后者。

模态的内部连接,将多模态编码器LLM大语言模型)连接的另一种方法是调整LLM的内部模块。

  • 基于交叉注意力Flamingo(Alayrac et al., 2022)提出了一种感知器,在LLMs注意力模块内增加了额外的交叉注意力机制Flamingo的几种变体也使用相同或类似的框架来调整MLLMs多模态大语言模型)。
  • 自回归式:像Fuyu(Bavishi et al., 2023)及其变体这样的MLLMs将视觉标记视为语言标记,并从预训练阶段开始使用相同的自回归训练损失来更新整个模型参数。

多模态大语言模型(MLLMs)的额外模态:尽管早期模型主要集中在视觉输入和文本输出上,但近期的发展已扩展到包括多种模态的输入和输出形式。在输入方面,通过适当的模态编码器和训练数据,LLMs大语言模型)现在可以理解视频、音频以及多种非语言模态,使这种方法具有可扩展性可访问性。在输出方面,最近的研究转向了创建超越单纯文本生成的混合内容。LLMs已经从最初的检索图像和生成文本发展到同时生成视觉和文本内容。生成图像和文本的详细技术路径包括对具有统一表示的图像-文本数据进行自回归调整,以及将文本特征转换为图像生成模型(Stable Diffusion)的符号调整。此外,视觉领域的最新进展为在没有文本的情况下生成内容提供了可扩展的方法,增强了将视觉模型扩展到生成任务的潜力。这为在语言之外的其他模态中扩展和发现类似的“AGI现象”提供了可能性。

当前AGI级别的感知模型仍然受到模态有限和鲁棒性不足的限制。为解决这些问题,所以提出了几个潜在的未来研究方向:

  • 模态多样化:整合多种数据类型以提升模型能力是至关重要的。需要探索不常见的模态(如图形),并同时整合多种模态(如图像、音频和视频)。这需要精心设计的模块、高质量的数据以及平衡管理不同模态之间的相互作用及其与语言的关系。例如,虽然GPT-4V只能处理语言和视觉信息,但最新的Gemini模型已将其能力扩展到更广泛的音频和视频范围。潜在的方法包括使用统一模态表示工具(如ImageBindLanguageBind)来弥合模态差距,减轻从其他模态学习的负担。
  • 提高多模态系统的鲁棒性和可靠性:随着越来越多的综合基准测试出现,这些测试不仅涵盖一般情况,还包括挑战性输入(如数学问题、反事实指令和攻击字符串),显然多模态系统(特别是较小的系统)在面对对抗性示例时表现不佳,并且严重依赖语言,缺乏在分布异常情况下的推理能力(如多面板图像、草图和长序列图像)。这些观察结果在实际应用中可能带来潜在风险。为应对这些挑战并构建更具鲁棒性的多模态AGI模型,可以考虑将对抗性示例纳入训练或增加训练数据指令格式的多样性。
  • 可解释的多模态模型:与传统模型不同,多模态模型涉及不同模态之间的复杂交互,因此揭示其内部工作机制以理解和创建更强大的多模态模型至关重要。为此,研究努力提供了训练或生成过程中的解释,揭示了模型性能和推理的洞见。方法如用多样化的训练数据探测模型性能已被探索。此外,Gemini团队通过提供生成解释来增强用户对AI推理过程的信任和理解。提高多模态模型的另一个方面是增加透明度,这包括识别特定的模型组件或配置,这些组件或配置有助于系统的能力(如视觉编码器连接器训练范式)。研究还特别调查了不同模态处理器对整体模型性能的影响。随着多模态模型的发展,未来的研究必须优先考虑可解释性透明度,以便充分发挥这些强大AI系统的潜力,同时确保其负责任和道德。例如,未来的研究方向可以探索严格控制的实验来训练AI模型,以分解每个部分,或探测模型组件以找到最有效的模块。
AI推理

推理是基于可用信息逻辑先验知识得出结论或做出决策的认知过程。它包括评估证据识别关系以及应用规则原则来解决问题。AI推理指的是AI系统模拟这一过程的能力,使机器能够理解情境推断结论并以类似人类推理的方式做出决策

当前AI推理的状况,大量研究表明,推理能力已经在大型机器学习模型中显现。大语言模型(LLMs),包括GPT-3LLaMA 2PALM 2,已经在各种NLP任务中实现了灵活的零样本和少样本推理能力。大视觉语言模型(LVLMs),如GPT-4视觉版Gemini,通过有效地整合视觉和语言推理,进一步推动了这一进展。已经开发出多种策略,以在不更新模型的情况下激发有效和高效的推理。这些方法在包括算术、常识、符号推理以及模拟和现实世界挑战在内的广泛任务中显著提高了模型性能。

思维导航:

  • 思维链(CoT):思维链生成一系列中间推理步骤,称为“思维”,以使模型能够分解多步骤问题,并为更复杂的任务分配额外的计算。这为模型的推理过程提供了可解释的洞见,帮助理解答案的推导过程,并识别推理中可能出现的错误。
  • 思维树(ToT):思维树使用基于树的搜索算法来导航“思维”,以进行深思熟虑的问题解决。这使得大语言模型(LLMs)能够探索多种推理路径,并在必要时进行前瞻回溯
  • 思维图(GoT):思维图将信息组织成图结构,其中“思维”是顶点,边对应于这些顶点之间的依赖关系。这种基于图的组织方式促进了更复杂的思维整合和操作,允许创建更复杂的推理路径反馈机制
  • 程序思维(PoT):程序思维利用语言模型将推理过程表达为程序,将计算委托给外部计算机执行生成的程序以获得答案。这种计算与推理的分离提高了对高度符号化推理问题的性能。
  • 自洽推理:自洽性通过采样多样化的推理路径并选择最一致的答案,克服了贪婪解码局限性,实现了更可靠的结果。
  • 其他提示策略:许多其他提示方法已被开发出来,以提高LLMs的推理能力。例如,复杂性提示、自动思维链、最简至最复杂提示、分解提示、工具LLMToRA等方法,通过不同的方式增强了模型的推理能力。
  • 动态推理与规划ReAct通过交替生成推理轨迹行动计划,实现动态推理DEPS通过动态反馈循环提高计划的可靠性。Inner MonologueProgPrompt等方法通过实时反馈调整计划,提高任务完成率和适应性。
  • 反思与改进:自我改进和反思等方法通过迭代生成和反馈,使模型能够根据反馈进行调整。CRITIC利用外部工具验证LLMs的行动,并进行自我校正。
  • 整合语言模型、世界模型和代理模型LAW框架结合语言模型世界模型代理模型,促进更强大的推理能力。RAPBIP-ALM等方法通过语言模型实现更复杂的推理规划
  • 具身智能体的推理与规划VoyagerGenerative Agents等方法通过动态推理反馈循环,提高了具身智能体在执行任务和与环境互动方面的能力。

尽管当前系统在各种任务中展示了令人印象深刻的推理技能,但它们仍存在一些重大缺陷和挑战:

  • 因果学习:基础模型需要学习因果关系,以实现更好的理解泛化。这些模型主要依赖训练数据中的模式,但这些模式并不总是能捕捉到人类知识和经验的深度和广度。此外,这些模型通常基于数据中提取的模式运行,而不是真正理解底层的因果关系Zečević等人(2023)描述了LLMs如何表面上复制因果关系,但缺乏底层的因果机制,使它们更像是“因果鹦鹉”而非真正的因果模型。Jin等人(2023)提出了一个具有挑战性的因果推理数据集,并建议LLMs在可靠推理因果关系方面仍有很长的路要走。未来AGI的进步应专注于学习因果关系而非相关性,从而实现更好的泛化和更深入的理解。
  • 复杂和长上下文推理AGI必须解决复杂的多步推理任务的挑战。尽管已经开发了许多策略来缓解这一问题,但这些策略通常需要明确的指导或问题的仔细构建,这在未来可能变得不必要。即使采用这些方法,模型在处理长上下文信息并在整个推理任务中保持连贯和逻辑推理方面仍然面临挑战。
  • 幻觉、不确定性评估和模糊处理AGI应解决幻觉问题,即生成与提供的来源内容不符或无意义的内容。这种倾向影响性能,并在实际应用中引发重大安全问题。此外,这些模型通常难以准确评估其不确定性,并在输出中有效传达这种不确定性,这可能导致误导性的结果。它们还难以处理模糊性,这可能使其在复杂情境中的可用性复杂化。
  • 社交推理AGI应提高社交推理能力,以增强与人类和其他智能体的互动。当前的AI模型缺乏健全的心智理论,即理解他人心理状态的能力。提高这一能力对于AGI系统在开放环境中与人类和其他智能体安全有效地互动至关重要。理解社交线索和规范是这一发展的核心,因为它使AGI能够在不同情境中解释和回应隐含的沟通和行为期望。
  • 可解释性和透明度AGI应解决可解释性透明度的挑战,从而提高其决策的可靠性。大多数AI系统缺乏这些特性,使得难以理解它们如何得出特定结论或答案。旨在用自然语言引出推理的技术并不总是与模型实际使用的推理过程一致,生成的解释可能具有系统性误导。这一局限性阻碍了它们的推理能力,并在需要决策审计证明的领域(如医疗和法律)带来重大挑战。
  • 动态推理和跨领域规划:未来的AGI系统旨在实现跨领域的动态推理道德高效的规划,以及前所未有的规模和速度的类人智能。我们仍然远未实现AGI级别的能力,即在没有重新训练或人类监督的情况下,在各种领域进行推理规划。这一旅程包括增强AI系统在不同领域之间转移知识和技能的能力,使它们能够高效地应对未知情况。关键的发展重点是创建能够在广泛的战略目标和详细行动之间进行规划的算法。此外,AI系统在规划阶段需要更有效地管理资源(如时间、能源和成本),并确保这些规划过程符合道德标准和安全法规,特别是在敏感领域,以避免滥用或意外后果。
  • 创新解决方案:未来的AGI系统将能够理解上下文推断因果关系,并在各种领域中动态应用高级逻辑规划。通过综合大量信息并进行深思熟虑的规划,它们可以为创造性假设的构建复杂道德判断的做出新场景结果的预测以及持续学习和完善对世界的理解提供创新解决方案。这些未来的AGI系统不仅将在处理和生成信息方面表现出色,还将能够以深度类似于人类智能的方式理解和与世界互动,但规模和速度将远超人类能力。
AI记忆

语言和视觉模型的无状态特性,语言和视觉模型本质上是无状态的,它们在交互之间不保留信息。然而,高级智能体不同,它们能够管理内部或外部记忆,从而能够进行复杂的多步交互。这种记忆存储了中间信息、领域特定或广泛的知识以及智能体之前观察、思考和行动的序列等。它帮助智能体利用以前的知识或经验进行推理、规划自我提升

当前AI记忆的状态从三个关键方面审视当前AI记忆的现状:

  • 记忆管理:决定存储什么信息以及何时存储。
  • 记忆表示:定义信息的结构形式。
  • 记忆利用:解决如何高效有效地应用和使用记忆

记忆管理,记忆根据持续时间分为短期记忆长期记忆短期记忆:短期记忆在维持当前决策过程所需的信息方面起着至关重要的作用。一个显著的例子是上下文提示,它利用基础模型自身的上下文作为一种短期记忆。这种方法可以提供额外的信息或示例,或用于生成中间推理。更广泛地说,短期记忆包括所有决策所需的即时数据,包括:1、感知模块收集或处理的实时数据;2、推理、规划和自我进化模块的即时输出;3、从长期记忆中主动检索的信息。这些元素共同合成,指导并告知后续行动。长期记忆:长期记忆可以广泛分为两类:经验知识。经验包括过去的观察、思考、行动等。这些丰富的经验在决策过程中起着关键作用。通过检索相关经验,智能体可以获得必要的信息,理解过去行动的反馈,并在理解和推理中实现一定程度的泛化。例如,Reflexion反思任务反馈信号,并将其作为文本摘要保存,直接纳入后续情境的上下文中,以提高性能。Generative Agents以自然语言记录经验,并使用相关性(基于嵌入)、最近性(基于规则)和重要性(基于推理)标准检索记忆。知识代表了智能体对世界和自身的理解,增强了其推理和决策能力。知识可以来自两个来源:从经验中收集同化的知识,或者利用外部知识库。例如,Voyager维护一个不断扩展的可执行代码技能库,用于初步行动以完成任务。ReAct使用Wikipedia API智能体缺乏信息时获取外部知识。

记忆表示,记忆表示分为文本记忆参数记忆文本记忆是当前表示记忆内容的主要方法,包括自然语言的原始形式和结构化形式(如元组、数据库等)。参数记忆可以通过监督微调知识编辑模型合并等技术将领域特定知识整合到模型参数中。文本记忆在每次推理时都需要将记忆纳入上下文提示,导致成本更高且处理时间更长。相比之下,参数记忆在写入阶段成本更高,因为微调模型比简单的文本存储更具挑战性。在可解释性方面,文本记忆通常比参数记忆更透明,因为自然语言是人类理解的最直接方式。

记忆利用,利用记忆的两种常见技术是记忆检索长上下文LLMs记忆检索记忆检索涉及从长期记忆中读取信息到短期记忆中以供即时使用。这可以通过基于规则的检索检索增强方法实现。基于规则的检索可以使用关键词时间步长特定模式搜索记忆检索增强方法Dense Passage Retriever(DPR)创建文档的稠密表示,并基于其先验概率检索最相关的文档。长上下文LLMs长上下文LLMs通过扩展上下文窗口,为模型访问长期记忆开辟了新的途径。Ring AttentionLongRoPE等技术通过改进注意机制存储方法,大大降低了长上下文推理的时间和成本。随着GPU性能的提升和注意机制的突破,LLMs上下文窗口已从GPT-21024token扩展到GPT-48192token,甚至超过16Ktoken。这些扩展的上下文窗口使得AI系统能够更有效地存储和回忆上下文中的知识经验,从而实现更快速和全面的基于上下文的推理

AGI级别的记忆,实现AGI级别的记忆需要管理庞大且动态组织的信息,改进记忆在推理和规划中的利用,并具备自主更新和丰富记忆库的能力。这涉及类似人类的有意记忆使用,但超越人类的能力,允许更全面和复杂的回忆。

  • 未来的AGI将高效管理多样且分层的记忆,确保隐私、协作和可扩展性。当前的AI智能体在构建分层记忆和无缝整合各种格式的信息方面面临挑战。未来的AGI系统预计将在处理嵌入、视频、文档和数据库等多种形式的记忆方面表现出色,既高效又有效。它们还需要处理不同级别的记忆权限:本地记忆对于保护隐私至关重要,而共享记忆(在集中或分散结构中,视需要)则是协作和分布式流程所必需的。用于记忆管理的架构预计将高度组织化和可扩展。这些系统可能具备先进的算法,用于分类和索引信息,使智能体能够高效地检索和记录各种经验和知识。此外,它们可以动态更新和重组记忆结构,确保信息的最佳存储和检索。
  • 未来的AGI将通过整合检索和高级推理来增强记忆利用,实现更类似人类的智能和适应性。超越简单的记忆检索,未来的AGI系统可以通过将检索过程高级推理相结合,精细地合成和应用信息,从而提高记忆利用率。这些检索过程可以被学习或更新,以适应不断变化的环境。能够实时访问和应用相关信息将是实现更类似人类智能的重要一步,使这些系统能够以高度理解和适应性应对新情况。
  • 未来的AGI将自主更新知识,实现持续学习和适应,同时确保安全。与主要依赖预先存在的人类生成内容的现有检索增强模型不同,未来的AGI系统可以自主生成评估和将新内容纳入其记忆库。这些更新应包括提高性能所需的知识和系统可以借鉴的经验。这一概念与自我进化密切相关。它将使AGI能够从自身的经验和洞察中学习,不断丰富和更新其知识库。在不断变化的世界中,这种能力还将使系统能够根据新信息迅速适应,并摒弃过时的知识。确保记忆更新的安全性至关重要,必须确保不会写入有害信息,以防止污染。为自主AGI设计安全约束涉及创建强大的验证协议,在整合之前评估新信息的真实性相关性和影响。可以实施专家系统定期审查更新,使用异常检测标记异常和潜在有害数据,并采用其他方法来强化这些安全约束。
AI元认知

元认知(Choudrie和Selamat,2006)是人类的关键认知情感技能,包括理解复杂情境、自我意识创新动机。这些能力有助于分享隐性知识并推动个人成长。开发具有如此先进元认知AGI引发了一个根本性的疑问:在追求人工智能的过程中,我们是否正处于创造一种新生命形式的边缘?其影响深远,因为引入具有自我意识自主决策能力的实体可能重新定义生命和智能的边界。这一诱人的前景需要严格的伦理考量和监管审查,以确保AGI的演化对人类社会产生积极影响,而不会无意中引发具有意想不到后果的范式转变

当前AI元认知的现状,关于元认知的讨论延伸到AGI领域,这些能力被认为同样重要。对于AGI系统,元认知能力如自我意识意识自我进化能力心智理论被认为是实现AGI的基础。这些内在能力可以使AI系统自主学习、高效完成任务,并更紧密地与人类意图保持一致。

  • AGI中的自我意识:在AI中发展自我意识,特别是在机器人领域,依赖于复杂的概念,如自我反思元认知自我疏离。这些概念对于构建具有支持自我描述、使用个人代词和响应自我聚焦线索能力的认知架构的社交机器人至关重要,这些能力是促进有效人类互动和环境导航的基础。随着AI系统的演进,赋予它们类似人类的审慎特质的哲学和实际考量正变得越来越重要,预示着一个新兴的研究领域。为了全面理解这一领域,结合心理学人工智能伦理学的跨学科方法至关重要。为了无缝融入以人类为中心的世界,AGI必须具备对自身和他人信念、意图欲望敏锐意识。这种“心智理论”(Premack and Woodruff, 1978)是一种元能力,使AGI能够理解和预测行为,从而促进更顺畅的人类互动。这种理解将使AGI在复杂的社会情境中做出更细致和明智的决策。
  • AGI的人格特质:最近的研究表明,LLMs可以展示一致的人格特质,如大五人格或MBTI框架中的类型,ChatGPT通常表现出与ENFJ类型相符的特质。这些模型还倾向于表现出特定的认知思维风格,例如ChatGPT的回答中显示出整体思维的倾向。研究越来越多地致力于有意地赋予LLMs特定的人格,使它们能够展示出多样且可验证的行为。
  • AGI元认知在自我进化中的能力:尽管前述研究将AGI定义为推理等易于衡量的能力,但可能忽视了元认知能力自我进化自我意识的潜在重要性。研究主要通过智能体的迭代适应来展示这一点,例如任务执行、代码执行或物理模拟反馈。其他自我进化策略包括提示适应优化通过错误识别自我反思持续改进,以及作为短期长期学习机制的记忆检索。这些方法主要强调基于LLMs的循环框架中任务的迭代精炼。相比之下,最新的进展提出了解决智能体跨任务自我进化的方法,强调利用过去的经验来有效进化AI系统

这些特质之所以重要,首先是因为自我意识可以通过准确评估自身的优势和局限性,增强AGI的适应性问题解决能力,从而在面对新挑战时实时调整策略。其次,随着AGI与社会功能的联系越来越紧密,伦理和道德决策能力变得越来越重要,需要自我意识来导航复杂的道德困境,并确保与人类价值观的一致。此外,AGI自主进化和适应的潜力在没有人类指导的情况下,可能带来更高的长期效率和能力,甚至可能导致其能力的指数级增长——这是真正AGI的关键特征。最后,在AGI中融入自主意识可能带来更自然和有效的人机互动,增强协作,并在需要与人类团队或社会结构深度融合的场景中开发更直观的用户界面。

AGI级别的元认知AGI元认知的未来是一个令人兴奋的可能性领域,可以显著扩展人工智能的边界。AGI在增强心智理论社会推理方面具有重大潜力。当前的AI在理解他人心理状态方面存在困难,而这对于细致的社交互动至关重要。未来的AGI可以通过多模态输入先进推理,更好地模拟他人的信念、意图行动。例如,具有增强社会推理能力AGI导师可以深入理解每个学生的知识、学习风格和动机,提供超个性化的指导。

  • AGI潜在的真正自我意识和意识:未来的AGI可能具备深度的自我意识,能够进行内省、反思,并探讨存在的问题。这将模糊人工智能生物智能之间的界限,引发哲学和伦理问题。然而,AI是否能够实现类似人类的意识仍然存在不确定性;这可能需要整合元认知内省自我感知能力。想象一个AGI伙伴,它不仅能够交流,还能在情感上深度共鸣,分享人类的状态。
  • AGI自主自我进化和开放式学习的潜力:研究应集中在AGI自主自我进化开放式学习的潜力上。由好奇心和内在动机驱动的AGI可以迅速自我提升,设定目标,创新策略,并突破界限。它们可能在某些领域超越人类智能,产生推动领域前进的新见解和突破。想象一个AGI科学家,它不知疲倦地进行实验,形成和测试假设,并以前所未有的速度做出发现。

在思考具有先进元认知AGI的含义和考量时,我们面临关于意识、智能、伦理以及我们在世界中位置的深刻问题。将AGI作为富有同情心的伙伴、洞察力的顾问和不知疲倦的创新者融入社会的令人兴奋的潜力,与需要应对创造潜在优越存在和重新定义人类与人工智能边界的挑战相平衡。实现这一AGI元认知愿景需要大量研究和开发,以弥合当前的能力差距。尽管如此,这一未来的令人敬畏的潜力和哲学挑战使其成为一个极其重要的AI进步领域,值得深思熟虑和努力实现。当我们站在这个新时代的门槛上,以热情、谨慎和深刻的反思来面对AGI元认知的发展至关重要,因为这将对我们的世界和我们对智能的理解产生深远的影响。

AGI接口:连接世界与AGI

在开发AGI的过程中,一个至关重要的方面是其与外部世界互动的能力。这种互动通过各种接口实现,使AGI系统能够感知、理解并在其数字物理智力环境中采取行动。AGI与数字世界的接口概念扩展了其范围,使智能体能够与互联网数据库代码API等数字环境互动,并展示出类似人类行为的智能行为。这一接口作为桥梁,将AGI与复杂的现实世界场景联系起来,为模拟和互动人类知识和经验的多面性提供了一个不可或缺的平台。通过促进AGI与现实世界信息结构和问题解决情境的互动,这一数字世界接口(Interface)加速了更为多才多艺和强大的人工通用智能的发展,使其能够在各种领域中有效运作。