机器学习(ML)(二十七) — AGI探析

发表于 2025-03-15 分类于人工智能阅读次数：本文字数： 15k 阅读时长 ≈ 50 分钟

AGI系统：实现AGI机制

超越Transformers：尽管Transformers架构取得了巨大的成功，许多研究尝试寻找其他设计来克服其一些缺点。混合专家(MoEs)使用多个“专家”子网络组成的条件模块替换了Transformer模型中的稠密层。使用路由机制在词元级或任务级动态决定使用哪个专家。尽管拥有多个专家，稀疏的MoEs通常可以在相同模型大小下更快地训练和解码，并且预计能够在不同的抽象任务中实现。然而，MoEs在推理过程中也带来了其他挑战，例如将所有专家加载到VRAM中的要求以及在多个节点上分发专家。

状态空间模型(SSMs)最近被应用于建模序列到序列的转换，可以在各种模型架构拓扑中替代二次自注意力机制。（离散化）SSM通过一组可学习参数(∆, A, ¯ B, C ¯)在每个时间步（标记）上定义递归关系，大多数研究试图解决的主要挑战是如何以并行化的方式计算这种递归，以便有效利用现代硬件加速器（例如FFTConv）。在这一类别中，最简单的形式是线性注意力，它可以被视为一种退化的SSM。在其核心，线性注意力将自注意力表示为核特征映射的线性点积，并利用矩阵乘积的结合性质将复杂度降低到线性。S4通过低秩校正对SSM进行了表达性和高效的参数化，使其能够稳定对角化，并将SSM简化为柯西核的计算。在S4之后，还有许多后续研究尝试对转移矩阵A¯（和其他矩阵）进行不同的参数化，以提高计算效率和建模能力。H3提出了一个由两个堆叠的独立SSM组成的SSM块，专门设计用于应对回忆早期标记的挑战，并支持跨序列的标记比较。Hyena通过用交错和隐式参数化的长卷积以及数据控制门替换S4层，推广了H3，从而将参数大小与滤波器大小解耦，增加了表达能力。后来提出了一种名为Retentive Network的基础架构，其中包含额外的门和多头注意力的变体，实现了恒定推理成本和线性长序列内存消耗。RWKV是一种新架构，结合了Transformer的高效并行训练和RNN的高效推理。本质上，主要的“WKV”操作涉及线性时不变(LTI)递归，可以解释为两个SSM的比率。为了克服以前SSM模型的主要弱点，即它们无法进行基于内容的推理，Mamba提出了选择性状态空间，可以使SSM参数成为输入的函数，从而将SSM从LTI转变为时变。尽管不再能够应用高效卷积，但他们设计了面向硬件的并行算法，用于递归计算，称为并行关联扫描，使其能够实现比Transformer高5倍的吞吐量，在多种模态上达到最先进的性能，并在实际数据上不断提高，直至百万长度的序列。重新审视循环神经网络（RNN）的兴趣火花也随着其在长上下文处理中的主要优势（即隐藏状态的线性时间和恒定内存）而出现。RNN的一个挑战是如何高效地扩展训练和推理。一种基于RNN的模型，具有门控线性递归，以及Griffin，它将门控线性递归与局部注意力相结合。他们展示了Hawk在下游任务上的优越性能，Griffin的性能与Llama-2相当，但训练标记数量减少了六倍。他们不仅展示了长上下文能力的潜力，还解释了如何在分布式训练和推理期间通过将 Griffin扩展到14B参数来有效利用硬件加速器。紧接着，一系列名为RecurrentGemma的模型以各种尺寸发布，包括预训练和指令调优版本。这些进展展示了在不依赖Transformer架构的情况下，训练一个数据高效、固定状态大小、长上下文和表达能力强的模型的可能性。最近的研究还探索了高层次架构混合策略，旨在结合不同变体的优势。并提出将Transformer与Mamba结合，通过交错层实现，在标准和长上下文任务上取得了令人印象深刻的结果，同时资源需求可控。除了手动设计，MAD将这一过程整合到一个端到端的流水线中，包含能够预测扩展规律的小规模能力单元测试。MAD成功找到了一种高效的架构，名为Striped Hyena，基于混合和稀疏，在计算最优预算和过度训练条件下，其扩展性能优于最先进的Transformer、卷积和循环架构（Transformer++、Hyena、Mamba）。这些研究很可能将继续激发对既高效又具扩展性的架构设计的进一步探索，打破当前的Transformer范式。

大规模训练：扩展大模型的训练在现代硬件上面临许多挑战，例如由于内存需求增加，模型无法再容纳在单个GPU中，通过更多计算单元加速训练速度同时尽量减少开销（线性扩展），以及利用分散资源等。并行计算：大语言模型在具有多个计算单元的集群环境中的并行性通常可以分为四种主要模式，通常称为“4D并行”。

分布式数据并行(DDP)：是最简单的设置，其中模型在各单元上复制，数据被切片并分别输入每个模型，通常在每次传递结束时进行同步步骤。DDP的更复杂版本，如ZeRO和FSDP，在现代大型训练框架（如 DeepSpeed、FairScale和Megatron-LM中被广泛使用。
张量并行(TP)或模型并行：将模型权重分成多个块，分布在多个GPU上。这种水平分割允许数据在分片权重上并行处理，然后在每个步骤结束时聚合结果，通常涉及清晰融合以减少同步通信。
流水线并行(PP)：将模型层垂直分配到不同的GPU上，数据将在不同单元的各个阶段之间移动。
序列并行(SP)：主要针对长上下文任务，沿序列维度进行分割，以缓解计算和存储负载。

结合不同的并行方式可能会带来高效的系统。然而，它们独特的权衡和集群配置，这并不容易实现。Alpha、HexGen和FlexFlow尝试自动化模型训练和推理的并行化过程，以最大化硬件利用率。集群配置（如内存、带宽和单个加速器的延迟、网络带宽等）通常是估计的，并使用动态规划和受限优化等搜索算法来找到最佳并行策略。通过自适应分配请求来支持非对称计算，以满足延迟要求。这些自动并行调度方法在许多涉及硬件和网络异构的情况下，已被证明可以与手动设计媲美甚至超越。

内存管理：内存管理是训练和部署大模型的最关键方面之一，特别是在长上下文领域，KV缓存的内存占用可能轻松超过模型权重和激活的总和。受传统操作系统设计启发，vLLM的分页注意力通过将KV缓存分区为非连续的内存块来解决内存碎片问题，显著提高了内存利用率，从而提高了系统吞吐量和效率。FastGen引入了一种自适应的KV缓存压缩技术，通过结构分析动态驱逐非特殊标记，减少内存使用。Scissorhands和H2O也有类似的观察，即保留关键标记可以在最小的微调和内存节省下保留大部分性能。Infinite-LLM首先将注意力计算分割成可分配给不同单元的较小子程序。为了实现这些子程序的高效分配，开发了一种专用服务器，可以动态管理KV缓存，并有效协调数据中心范围内的所有可用GPU和CPU内存。许多重要技术已被广泛采用于流行的深度学习框架中，以将更大的模型适配到固定内存的设备中。CPU卸载允许模型有选择地将权重（层）或KV缓存转移到具有更多内存的CPU，并仅将必要的网络部分加载到GPU进行处理。在极端情况下，FlexGen可以在单个16GB GPU上实现OPT-175B的显著批处理吞吐量。梯度检查点通过在反向传播期间重新计算计算图的部分来减少峰值内存使用。毫无疑问，高效的内存管理将继续作为核心投资方向，使可扩展系统的部署和更大批次的并行处理成为可能。

高效微调：预训练的大模型通常内化了大量知识，可以通过（指令）微调释放出来。然而，尽管通常只需少量示例即可成功微调，但其成本和时间仍然高昂且不经济。高效微调的主要目标是在成本（实现难度、数据需求、训练预算等）和持续预训练的性能差距之间找到平衡。为应对这一挑战，开发了一系列参数高效微调(PEFT)技术，这些技术只需训练少量新参数，通常比上下文学习表现更好。LoRA作为最受欢迎的PEFT方法之一，近来备受关注。LoRA及其许多变体（如LoHA、AdaLoRA、Q-LoRA和最近的PiSSA）通过插入低秩分解的可学习矩阵来代替增量权重矩阵。LLaMA-Adapter通过很少的计算预算高效地将LLaMA微调为指令遵循模型。一组可学习的适配提示首先被添加到上下文中，并通过零初始化的注意力机制和零门控机制，仅使用52K自我指导示例进行训练。来自适配器的额外1.2M参数可以产生高质量的输出，与完全微调的结果相当。与LoRA类似，IA3通过可学习向量而非矩阵来缩放模型激活。其他插入可学习组件的PEFT方法展示了强大的泛化能力，而基于提示的方法（如软提示）则在保持原始模型权重不变的情况下，向输入嵌入中添加额外的可学习参数。适配器在注意力块内添加可训练参数，而前缀调整则在注意力中的KV表示中附加可学习向量。与传统的PEFT技术不同，微调Transformer的LayerNorm层可以作为一个强大的基准，带来不错的性能。

去中心化：许多研究致力于利用云端分散且硬件异构的计算设备进行模型训练和推理。位置上分离的集群面临的一个挑战是通信开销，这使得数据移动（如训练数据、梯度、KV缓存等）成本高昂，从而抵消了去中心化的好处。CacheGen通过编码器将KV缓存压缩成紧凑的比特流表示，减少了上下文获取和处理的延迟。CocktailSGD采用稀疏化和量化技术的组合，使得在慢速网络上微调高达20B的大语言模型成为可能，并且与数据中心的快速互连相比，仅有最小的减速。DiLoCo在连接不佳的设备岛上引入了一种新的联合平均算法，声称在C4数据集上的表现与完全同步优化相当，同时通信量减少了500倍。协作训练通过众包方式从个人用户那里获取普通GPU，其中最著名的例子是Petals，该系统能够使用多方的普通GPU以不错的性能（例如支持交互式会话）提供和微调BLOOM-176B和OPT-175B。去中心化的人工智能系统开启了全球设备互联的可能性，确保了容错性和异构设备及网络的兼容性，同时优化了有限的网络带宽和数据隐私。

训练动态与扩展：大语言模型的科学难以捉摸，理解它们可以极大地改进各种人工智能的开发。然而，大多数成功的LLM不仅在数据和模型权重方面不完全“开放”，还在中间检查点和工件日志等其他方面也不开放，而这些信息可以帮助推理训练动态，因为我们将模型扩展到不同的规模。OPT模型在各种下游任务上的中间检查点，试图强调困惑度作为模型性能的预测指标，而不是其大小，表明较大的模型出现幻觉的频率较低，并且模型在训练早期阶段表现出最小的回报。与此互补，研究了不同模型大小、数据集大小和学习率下的记忆能力，并提出了关于名词和数字作为记忆单个训练示例的唯一标识符的重要性的有趣假设。除了纯粹的分析，Pythia推出了一套由16个LLM组成的套件，这些模型在公共数据上训练，参数量从70M到12B不等。通过将这些中间检查点发布给更广泛的社区，研究人员可以更轻松、更高效地通过检查和基准测试单个保存的权重和损失来找到与训练动态相关的问题的答案。最后，OLMo发布了整个框架，包括训练数据和训练及评估代码，以便更容易研究LLM背后的科学。

推理技术：AGI推理系统需要确保用户响应性、可用性和效率，从而在训练阶段释放大模型的最大潜力，并改变用户与系统的交互方式。

解码算法：在这里主要关注精确解码加速，目的是在不影响准确性的情况下最大化性能。对几种近似方法进行了全面的综述，包括采样策略、非自回归解码、半自回归解码、块并行解码等。大量研究探讨了推测解码的理念，通过并行计算来提高生成多个标记的机会。通常，推测解码过程从一个高效的草稿模型开始，该模型对多个步骤进行预测，生成的提案由我们想要采样的目标模型验证。然而，这其中存在许多挑战，包括：如何使草稿模型轻量化，同时仍能生成有用的猜测以实现高效进展；如何避免大量架构变化和微调以实现更快的适应；如何更有效地部署草稿模型。最简单但有效的变体称为提示查找解码，其中草稿模型被从现有数据库中进行简单前缀字符串匹配所取代，以生成候选标记。这种与模型无关的方法可以非常快速地解码，而无需任何微调或模型更改，但其性能严重依赖于字符串池的质量和多样性。为了加快对大量候选项的验证，SpecInfer将草稿模型的输出组织成一个标记树，每个节点都是一个候选标记，其正确性可以被基础模型并行高效地检查。类似地，Medusa引入了一种树注意力机制，同时检查来自medusa头的所有标记，这通过特殊的掩码模式实现了高效的并行计算。自推测解码提出完全放弃草稿模型的要求，通过选择性地跳过一部分中间层来生成候选序列。硬件感知算法在解码阶段特别有效和吸引人。遵循高效自注意力工作，Flash-Decoding沿序列维度进行分割，并与其KV缓存和统计数据并行处理这些块，其结果将通过归约步骤聚合以获得精确输出。为了克服Flash-Decoding的局限性并应用更多系统级优化，FlashDecoding++引入了基于统一最大值的异步softmax（避免同步开销）、优化的平坦GEMM操作与双缓冲（GEMM的性能取决于矩阵形状）以及基于启发式的数据流与硬件资源适应，以加速解码过程，结果比HuggingFace快了4倍以上。

请求调度：大语言模型(LLM)的请求调度与传统机器学习系统相比，具有几个独特的挑战。成熟的请求调度策略的重要特性包括：1、高效地预取上下文（用户信息、过去的KV缓存和模型适配器等）以便为给定输入提供服务；2、处理具有可变序列长度的示例，以最大化GPU利用率；3、在时间到首个令牌(TTFT)、作业完成时间(JCT)、批量令牌吞吐量和推理延迟等请求级别指标之间进行权衡。Orca提出了一种迭代级别的调度机制，以满足LLM推理请求的自回归特性，当与选择性批处理的技术结合时，可以更好地利用硬件，从而在吞吐量和延迟方面超越之前的推理引擎，如FastTransformer(NVIDIA, 2023a)。其他动态批处理策略也被广泛探索，例如vLLM的连续批处理和TensorRT-LLM(NVIDIA, 2023b)的飞行批处理。与请求调度不同，FastServe利用LLM推理的自回归模式，使每个输出令牌的抢占成为可能，通过一种新的跳跃连接多级反馈队列调度器优化JCT，该调度器利用输入长度信息以提高效率。推理工作负载与示例的平均序列长度密切相关，因此我们希望最小化最长和最短句子之间的差距。S³预测批处理中每个示例的潜在响应长度，用于在相同的内存约束（例如GPU内存）下容纳更多示例。DeepSpeed-FastGen的动态SplitFuse利用LLM推理的思想（批量大小与令牌数量变化对模型性能的影响），提出了一种令牌组合策略。动态SplitFuse通过从提示中获取部分令牌并与生成进行组合，以一致的前向大小运行。例如，长提示被分割成几个前向迭代中的较小块，而短提示则被组合以与其他请求对齐。通过这种策略，系统不仅提供了更好的效率和响应能力，还减少了请求的差异。

多模型服务：除了为同一模型提供多个副本外，能够高效部署大量任务专用模型成为许多应用场景（如LLM智能体、个性化聊天机器人、隐私敏感助手等）的重要特性。然而，简单地扩展实例数量在计算上不仅成本高昂，而且浪费资源。随着PEFT技术的进步，使用多样化适配器为基础模型提供服务成为许多从业者青睐的范式，因为PEFT模型轻量且易于维护，同时具有灵活性和强大的功能。多模型(PEFT)服务的主要挑战是如何动态且高效地为每个示例加载“正确的”（以延迟或任务性能等衡量）适配器。Punica通过设计新的CUDA内核，实现了在一个批次中对异构LoRA头的高效计算，该内核共享一个预训练模型，实现了高达12倍的吞吐量，同时仅增加了轻微的额外延迟。S-LoRA引入了统一分页，使用统一的内存池进行动态适配器管理，并使用高度优化的CUDA内核并行化LoRA计算。LoRAX还提供适配器交换调度，在GPU和CPU内存之间异步预取和卸载适配器，并调度请求批处理以优化总吞吐量。通过这些系统，可以在单个GPU上为超过一千个不同的LoRA头提供服务，从而开启了模型协作、任务泛化和模型合并等更广泛的可能性。

成本与效率：与模型训练和推理相关的成本往往容易被忽视，但在实际应用中，尤其是在工业环境中，这些因素常常影响许多决策，如模型架构设计、数据混合选择和服务定价。

数据经济：数据在模型性能中起着至关重要的作用，数据价值的问题因此变得非常重要：1、我们应收集哪些数据以添加到现有数据混合中以提高性能；2、我们应如何支付给数据提供者；3、我们能否移除非必要的数据（异常值）以使我们的模型更健壮。为了回答这些问题，许多计算机科学和经济学（博弈论）的研究探讨了不同的形式来定义“数据价值”及其高效估计方法。来自经典博弈论的夏普利值(Shapley value)独特地满足了公平数据评估的几个自然属性。由于其丰富的理论成果，夏普利值在数据经济领域被广泛用作数据重要性的定量和替代性度量（例如，夏普利值估计可用于数据采样、清理、定价、异常检测等）。计算数据夏普利值需要指数时间，因此蒙特卡罗方法和基于梯度的方法被用来提高效率。TracIn采用了类似的思想，利用梯度信息追踪单个训练示例的影响。为了使这些算法实用且易于使用，DataScope被开发为一个端到端的系统，可以高效地计算整个管道中各种机器学习算法和数据转换的训练数据的夏普利值，使其成为数据调试的强大工具。随着数据评估的成熟，数据提供者更有动力做出贡献，从而促进了更健康和健壮的数据中心生态系统。

模型组合(Model Combination，MC)旨在通过协调或合并一系列（专用）大模型来提高整个系统的性能。模型组合的主要优势在于无需显式训练，并且能带来更好的下游性能和任务泛化能力。例如，FrugalGPT以级联方式将请求路由到不同的LLM，并使用学习到的评分函数决定是否以灵活的方式返回中间结果，从而大幅降低成本并提高质量。合并多个LLM的权重已被广泛探索并证明其有效。流行的方法包括简单平均、任务算术、多模态（编码器）合并、基于学习路由函数的合并、SLERP以及加权（共轭梯度下降、随机和基于群体的优化算法）合并。模型组合对于联邦学习也非常有前景，因为只需要交换模型权重，从而更容易保证数据隐私。例如，CoID Fusion提出通过将基础模型的副本发送到工作者并在不传输数据的情况下合并学习到的权重来协作改进多任务学习。模型组合可以形成复合系统，这些系统由多个LLM通过合并、路由或知识共享方式协同工作。例如，AIOS设计了一种机制，将多个LLM智能体集成到操作系统中，这些智能体的协同组合使得能够处理越来越复杂的多模态任务，这些任务需要推理、执行以及与物理世界的交互。Tandom Transformer通过让较小的模型关注较大模型的丰富表示（该表示可以同时处理多个令牌），形成了一个拼接的学生-教师系统，从而在下游任务中提高准确性和效率。然而，开发复杂的复合系统也面临着多个挑战：如何协同优化多个LLM；识别故障（不安全）组件比调试单体系统要困难得多；如何为大型系统的不同组件设计成熟的数据管道。

自动化：随着大模型的复杂性不断增加，为了实现民主化和敏捷开发，需要一个更加成熟的自动化过程。自动机器学习(AutoML)在过去几年中已在许多机器学习任务中取得了显著的成功，这证明了它在大模型自动化中的前景。然而，将AutoML技术应用于大语言模型(LLM)面临诸多挑战，例如预训练成本、多个不同阶段以及性能指标的多样性，使得整体优化变得困难甚至不可行。例如，PriorBand尝试通过利用专家信念和廉价的代理任务来弥补传统机器学习和现代深度学习之间的超参数优化(HPO)成本差距。AdaBERT是一种基于可微分神经架构搜索(NAS)的自动化任务压缩算法，受任务导向的知识蒸馏损失和效率感知损失的指导。为了减轻提示工程的负担，自动提示工程师(APE)提出利用多个LLM之间的相互作用来实现自动提示生成和选择，其中一个LLM提出或修改提示，另一个LLM对其进行评分和选择。EcoOptiGen通过找到更好的超参数（如响应数量、温度和最大令牌数）来优化解码的效用和成本，展示了将AutoML应用于推理阶段的潜力。一种非常令人兴奋的方法是让多个LLM在分解的方式下合作解决大问题。一种实现方式是让LLM或VLM在管道中服务于不同的目的，这可能非常具有挑战性，需要调优、优化、模块化和调试。DSPy通过将系统的流程与每个步骤的参数（即模型提示和权重）分离，然后使用专用算法根据用户定义的指标进行调优来解决这一问题。

计算平台：大语言模型的进步和实用性在很大程度上取决于不断演进的硬件加速器趋势。GPU是最常用的选择，它们通过优化并行计算和快速线程共享内存来提高性能。GPU非常适合现代深度学习，特别是在大量向量和矩阵乘法方面。NVIDIA的Ampere和Hopper GPU架构是许多最先进模型的基石，主要得益于其增强的内存容量、访问速度和计算性能（增加了张量核心）。这些GPU支持不同的算术精度（32位和16位浮点数）和格式（张量浮点数和脑浮点数），在数值精度和效率之间进行权衡。除了NVIDIA外，其他制造商也在投资专门用于深度学习应用的加速器，例如TPU、FPGA、AWS Inferentia和Groq的LPU，每种都有其优势。大模型需要巨大的内存容量来支持训练和推理（例如，未经额外优化的原生Llama-70B模型需要8块A100 GPU，总共80GB的VRAM）。然而，开发高效算法需要对底层硬件的规格有深入的理解（例如模型并行、内存层次、网络配置等）。随着我们将模型扩展到万亿甚至更大规模，需要更复杂的并行技术，这可能很难概念化、实现和维护。NVIDIA DGX GH200通过提供一个巨大的共享内存空间（最高144TB）来简化编程模型，该内存空间跨越了相互连接的Grace Hopper Superchips（一个Grace CPU与一个Grace GPU配对）。Qualcomm Cloud AI 100 Ultra可以在单个150瓦卡上支持100亿参数模型（与LED灯泡的功耗相同）。加速器的强大和效率伴随着灵活性，这得益于专门设计的编程语言，如NVIDIA的CUDA和AMD的ROCm，它们提供了对线程利用和计算逻辑的更细粒度的控制。许多工作，如TVM和MLC-LLM，试图通过编译器加速来普及机器学习和深度学习模型在各类设备上的部署，旨在最大化各种加速器的潜力。

AGI系统的未来形式：集中式服务模型（左）、分布式云端模型（中）、边缘设备网络模型（右）

三种常见的AGI系统范式：

集中式服务模型（左）：这种模型通常将AI模型部署在中央服务器上，通过强连接的客户端提供快速稳定的服务。这种架构在当前的数据中心中非常常见，能够支持高吞吐量和复杂任务的处理。
分布式云端模型（中）：这种模型将AI模型（完整副本或分片）分散到云端的异构设备上，这些设备通过不同的网络连接，请求可以在不经过单一节点的情况下处理。这种架构提高了系统的容错性和灵活性，能够更好地利用分散的计算资源。
边缘设备网络模型（右）：这种模型不仅将高性能设备，还包括物联网(IoT)设备连接起来，只有必要的数据通过网络传输，以减少网络负担。这种架构优化了用户数据隐私、快速适应和响应式个人助手，非常适合需要保护用户数据隐私和提供快速响应的应用场景。

AGI系统的未来：AGI系统作为支持各种应用的基础设施，其目标是不断改进稳定性、资源利用率、性能和安全性。受前期工作和最近硬件趋势启发的三种AGI系统，设想了三种主要的AGI系统，它们针对不同应用场景，具有各自的资源可用性、核心系统指标、安全性和性能要求。以下是这些系统的关键特征及其目标应用：

数据中心SoTA模型：这些模型正在随着新技术的发展而演进，以支持更高的吞吐量和解决复杂任务，如科学发现和世界模拟。它们与当前的最先进模型类似，通常部署在数据中心。我们可以预期网络、加速器和推理基础设施将继续演进，以支持超高吞吐量和解决更复杂的任务。
去中心化社区驱动模型：这些模型实现了容错、透明和民主的计算资源利用。分散的计算资源如果能协同使用，将具有重要意义。这些模型将由多个服务器以去中心化方式维护，类似于分布式账本系统，任何单个参与者都难以破坏整个系统。通过精心设计的激励机制，去中心化的大模型具有容错性、透明性，并由整个社区驱动，用户可以同时贡献和受益，从而实现大模型民主。
本地和专用模型：这些模型优化了用户数据隐私、快速适应和响应式个人助手。它们通常部署在较便宜、性能较低且异构的边缘设备上，可以在网络中异步交换必要信息。这些模型非常适合快速任务适应、保护用户数据隐私、提供较简单的个人助手，并确保闪电般的响应时间。

这些系统的发展将在未来AI技术的进步中发挥重要作用，尤其是在数据中心的高性能计算、去中心化AI的透明性和安全性，以及本地模型的隐私保护方面。系统支持内部和外部AGI模块，系统研究和工程的进步如何促进内部和外部AGI模块的发展，可能性是无穷的。以下是一些例子，希望它们能够激发未来的潜力：

具有更长上下文长度和更强处理能力的系统：最常见的将多模态数据整合到一个共同空间（例如LLM中的令牌）的方式会导致数据长度爆炸，即使使用足够的压缩技术，我们仍然希望未来AI系统能够处理更多信息。同样的要求也出现在世界模型构建中，用户可能需要更频繁、大量地输入数据。其他需要长上下文理解的情况包括批量数据处理（用于金融和数据分析）、医疗史检查、人格聊天机器人等。这些应用要求模型能够处理更长的上下文输入，这需要专门设计的系统来应对高效扩展的挑战。
与模型架构协同设计的系统以支持高效外部资源获取：能够使用多样化工具并获取外部知识是未来AGI系统的必备要求。我们可以设想持续投资于开发和协同设计模型友好的工具接口（例如与人类使用的API不同、适应模型输出模式的检索索引等），这可以大大提高模型获取外部知识的效率。AI系统的一个关键期望是终身学习，这需要复杂的记忆和能力存储，这是系统研究的一个有前途的方向。
多个智能体的系统编排：协作AI智能体之间的协同作用可以显著造福世界的各个方面。然而，达到这种多智能体系统的高效和有效并非易事，需要在支持智能体之间的通信、资源共享、调制和任务编排的基础设施上投入大量精力。此外，随着智能体数量和复杂性的增长，我们需要在系统技术上进行更多投资，例如日志记录和监控，这些技术使得调试和故障恢复变得更容易。

AGI的期望包括其能力和伦理问题。AGI系统应该具备解决复杂问题的能力，同时也需要考虑其对社会的影响和潜在风险。伦理问题包括确保AGI不会对人类造成伤害，并且其行为符合人类的价值观。当前的对齐技术可以分为三个主要类别：

前向对齐(Forward Alignment)：通过训练AI系统从人类反馈中学习，并在数据分布变化时保持稳定。常用的方法包括强化学习和偏好建模。
后向对齐(Backward Alignment)：通过评估和监管AI系统的行为，以确保其与人类价值观保持一致。这包括安全评估、可解释性和价值遵守等方面。
去中心化对齐：强调开放性、包容性和与人类价值观的对齐，特别是在去中心化的AGI开发中。

基于接口的未来AGI对齐路线：未来AGI对齐可以通过设计和优化接口来实现。这种方法包括开发能够与人类有效交互的AI系统，并确保这些系统能够从人类反馈中学习。通过协同设计AI系统和其接口，可以提高对齐的效率和安全性。此外，AGI对齐还需要解决诸如可靠性、可解释性、可控性和伦理性等关键原则。随着AGI的发展，确保其与人类价值观保持一致将变得越来越重要。

AGI对齐：确保AGI满足各种需求

这个标题强调了确保人工智能(AGI)系统与人类价值观和目标一致的重要性，以便它们能够满足不同的需求。对齐技术包括：在线人类监督、离线人类监督和交互式监督。为什么我们需要对齐？未来AGI系统的开发和部署面临复杂的挑战，其中一个核心期望是它们与人类价值观、目标和道德原则的一致。这种对齐要求AGI具备对社会规范和个人偏好的深刻理解，从而能够做出对所有人都有益且符合道德的决策和行动。确保这种对齐对于引导AGI系统朝着有益的结果发展并减少意外后果的风险至关重要。为了实现这一目标，研究人员提出了多种AI对齐的方法，例如价值学习、逆强化学习、合作逆强化学习以及最常见的与RLHF相关的策略。这些方法旨在推断并使AI系统与人类偏好和价值观一致。此外，开发包容广泛文化、哲学和伦理观点的道德框架和指南至关重要。此外，AGI的部署需要全面的测试和验证，以确保它在各种情境下符合人类价值观。这包括技术模拟和现实世界的受控实验，以评估AGI与人类及其环境的互动。还有必要对AGI系统施加限制，特别是在其与外部接口和环境互动方面。通过定义严格的操作限制、实施实时监督以及集成在检测到偏离安全行为时停止操作的保护机制，可以缓解与自主决策相关的风险以及潜在的系统漏洞被利用的风险。

公平性：AI系统可能会因训练数据中存在的不公正倾向而产生不公平和歧视性的结果。这些结果可能以多种方式导致伦理问题。
可信性：AI系统也可能生成包含虚假或误导性声明的信息。最近的研究发现，大语言模型(LLMs)可能会产生幻觉信息，生成看似合理但实际错误的输出。
透明性：透明性旨在使相关利益方能够对模型的机制、能力和局限性形成适当的理解。大语言模型(LLMs)的最新进展在透明性方面带来了巨大挑战，因为它们的模型能力复杂且不确定，架构也不透明。
安全性：AI系统可以通过自动生成针对性的文本、图像或代码，增强个人故意造成伤害的能力。通过AGI系统，人们可以以更低的成本生成用于恶意目的的内容。攻击者可以利用大语言模型(LLMs)的最新进展，生成新的攻击方式，并提高现有攻击的速度和效力。
隐私性：AI系统可能会在现实世界中导致各种数字隐私损害，这源于AI模仿人类或超人类水平表现的独特能力。根据之前的研究AI系统可能会产生新的隐私风险。

当前的对齐技术可以根据预期的对齐目标进行分类。大多数当前的模型使用各种技术来实现这一任务，并采用人类监督。然而，为了预见比教师更强的模型（即对齐超级智能），需要一个可扩展的方法来实现这一过程，通常涉及人类监督和递归演化信号。与在线人类反馈对齐大多数当前经验证实的大语言模型(LLMs)对齐方法属于这一类。这些方法可以通过强化学习等技术，帮助LLMs与在线人类反馈对齐，或者仅在离线情况下询问人类监督。因此，我们进一步将这些技术分为在线人类监督和离线人类监督两组。值得注意的是，这两个子组中的方法都有潜力成为可扩展监督的组成部分。在线监督是在训练过程中从奖励模型获得的。人类反馈的强化学习(RLHF)是在线监督学习方法中最常见的方法之一。还提出了多种增强的RLHF变体。RLHF的改进方向主要集中在奖励建模、优化、数据和自我改进方面。

奖励建模：作为对齐过程中的主要监督手段，奖励建模是改进对齐技术的关键方式。Sparrow将对抗性探测和基于语言的规则纳入RLHF奖励模型。研究使用纯RL为LLMs训练提供在线人类级别的监督，并详细探讨了输出有用性和无害性之间的权衡。其他统一奖励和策略模型的技术也已出现，这为对齐AI模型提供了更多方向。另一个方向则专注于通过更新评估协议、组合多个奖励模型以及用合成数据精炼奖励策略来缓解奖励黑客行为或过度优化问题。
优化：如何将在线或离线监督纳入其中是一个值得探索的开放问题。例如，使用极小极大优化同时优化奖励模型和策略模型。最近的研究正在探索 RLHF方法的几种替代方案。DPO放弃了奖励模型，并使用数据中的标记偏好优化最终目标。Muldrew et al.(2024)提出了一种基于DPO的改进方法，采用主动学习策略。NashLLM利用成对的人类反馈，通过纳什学习训练策略模型。ReMax在传统强化学习算法中去除了价值模型，并引入了一种新的方差减少技术来稳定优化过程。
数据：Sensi尝试通过语言模型在语言生成的每个步骤中嵌入人类价值判断，用于奖励分配（作为评论者）和生成控制（作为执行者）。Baheti et al.(2023)专注于通过赋予不同实例不同的权重来增强当前的训练数据，以最大化数据对语言模型的贡献。为了确保持续的高质量数据，AI生成的实例被用于适应RLHF，最近也用于DPO。
自我改进：强大的AI模型应学会在有或无外部监督的情况下改进自身。最近的进展之一是从弱到强的泛化。为了改进当前的RLHF相关方法，f-DPG被构建为RLHF的泛化，使用任何f-发散度来近似任何可评估的目标分布，这使其与之前只能适应KL发散度的方法不同。Zhu et al.(2023)将RLHF与最大熵IRL结合，并提出了一个具有样本复杂度界限的统一范式，适用于两种情况。

除了RLHF，其他基于强化学习的方法也引起了研究人员的关注，以便进一步探索。Second Thoughts通过文本编辑过程增强训练数据，并进一步利用RL算法训练LLM。RLAIF开启了利用AI生成数据进行强化学习的新时代，使得从更具竞争力的生成模型中提取知识更加有效，同时保持了RLHF技术的优势。Kim et al.(2023)提出了基于合成反馈的强化学习(RLSF)，他们自动构建奖励模型的训练数据，而不是使用人工标注的偏好数据。为了有效地调整黑盒模型，各种方法引入了RL算法。方向性刺激提示(DSP)使用可训练的策略语言模型，通过监督微调(SFT)和RL调整的策略语言模型，引导黑盒冻结的LLM朝向期望的目标。与上述仅涉及单一模型的对齐方法不同，RL4F是一个多智能体协作框架，针对LLM进行微调，并使用一个小型评论模型，通过文本反馈对LLM的响应进行评论。与DSP直接修改初始提示不同，该框架通过逐步互动逐渐影响LLM的输出，使其适用于黑盒LLM的优化。

与离线人类监督对齐：基于强化学习的方法提供了灵活的在线人类偏好监督，但代价是训练奖励模型可能会出现误对齐和系统性缺陷，以及强化学习训练的固有不稳定性。离线监督方法可以帮助缓解这些挑战，同时在大多数情景下仍能取得不错的性能。我们将离线监督调优方法分为基于文本和基于排名的反馈信号。

基于文本的反馈信号：基于文本的反馈信号涉及将人类意图和偏好转换为基于文本的反馈，以确保对齐，扩展了SFT过程。这些方法主要从改进训练数据入手。CoH受人类学习过程启发，专注于根据连续输出和之前推理步骤的总结反馈来调整模型，以微调预测偏好输出。RAFT使用奖励模型通过SFT将模型输出与人类偏好对齐，但以离线方式进行。LIMA旨在验证LLMs在预训练期间获取大部分知识的假设，仅需少量指令微调数据即可引导生成期望的输出。ILF引入了一个三阶段过程，基于语言反馈建模人类偏好，类似于贝叶斯推断。稳定对齐通过使用Sandbox模拟器，从多智能体社交互动中学习对齐，直接用偏好数据优化LLMs，避免奖励黑客行为。SteerLM赋予最终用户在推理过程中控制响应的能力，通过使响应符合明确定义的多维属性集来调节响应。CLP学习可操控的模型，能够在推理时有效权衡冲突目标，基于多任务训练和参数高效微调的技术。
基于排名的反馈信号：CRINGE深入研究了LLMs应避免的负面示例，而Xu et al.(2022)通过训练另一个生成有害内容的模型来微调模型。然而，这种方法在资源消耗和潜在模型质量及多样性降低方面引发了担忧。Schick et al.(2021)提出了一种识别和生成与有害文本类型对应的文本的方法。SLiC(Zhao et al., 2023a)通过使用各种损失函数，将输出序列的概率与参考序列对齐。RRHF(Yuan et al., 2023)通过排名结果自动生成监督信号以实现对齐，而DPO则直接优化LLMs以与人类偏好对齐，类似于RRHF，但侧重于最大化奖励并集成KL散度正则化。IPO在DPO的基础上引入了一个正则化项，以稳定训练过程。偏好排名优化(PRO)与IPO和DPO类似，使用一个正样本和多个负样本优化LLMs，而不是成对比较。Kahneman-Tversky优化(KTO)仅基于标记为“好”或“坏”的单个示例定义损失函数，不需要成对偏好，使其训练数据更易获取。此外，Best-of-N(BoN)方法也是一种流行且有效的算法，用于在推理时将语言模型与人类偏好对齐。BoNBoN对齐微调LLM以模仿Best-of-N采样分布。BOND引入了一种新的RLHF算法，旨在模仿Best-of-N，但在推理时不会带来显著的计算开销。变分BoN(vBoN)通过最小化语言模型与BoN分布之间的逆KL散度，近似BoN算法诱导的概率分布。

可扩展监督：对齐模型的最终目标是规范超人类智能。可扩展对齐方法是一种有前景的手段，旨在解决监督复杂任务或超人类模型的挑战。通过使相对弱势的监督者（如人类）能够使用逐步演化的信号监督复杂任务或系统，可扩展对齐为超出人类能力的任务提供了解决方案。

通过任务分解：已提出各种范式和策略将复杂任务分解为更简单的子任务。因子认知涉及将复杂任务分解为同时处理的较小独立任务。过程监督将任务分解为顺序子任务，并为每个阶段提供监督信号。三明治方法将复杂任务委派给领域专家解决。IDA引入了一种迭代蒸馏和放大过程，通过任务分解提升模型能力。RRM用奖励建模替代IDA中的蒸馏模仿学习，使用人类对齐信号和强化学习优化模型。这些方法旨在通过迭代改进，增强人类与智能体之间的合作，以解决复杂任务。
通过人类编写的原则：宪法AI，也称为原则指导对齐，涉及人类为AI系统提供一般原则，使AI系统能够在此指导下生成训练实例。Bai et al.(2022b)提出了一种宪法AI的两阶段训练方法，在SL阶段使用红队提示，在RL阶段训练偏好模型。类似地，Sun et al.(2023c)引入了Dromedary，一种基于人类编写原则的自我指导和自我对齐方法训练的模型，不使用RL。这些方法旨在扩展人类监督，以协助开发超人类AI系统。
通过模型互动：其他可扩展监督的努力探索了模型之间互动优化的可能性。辩论范式使智能体能够提出问题的答案，并参与结构化辩论以证明和批评立场。类似地，市场制定部署市场和对手模型，通过生成论据影响市场对问题的回答。与此同时，对手目标通过论据改变市场的预测，从而形成动态决策流。

如何处理AGI对齐：基于接口类型的对齐，当AGI系统与各种接口（包括工具、API、其他AI智能体和人类）互动时，必须遵守不同的期望和约束，以确保符合伦理要求并产生有益的结果。

与工具和API的互动：在与工具和API互动时，我们主要关注AGI对齐中的效力、效率以及一些基本的限制规则：对齐的主要目标是赋予这些模型与工具和API高效互动的能力，并准确遵循指令。例如，在由AGI管理的自动化工厂中，AGI需要灵活地利用各种机械设备和制造工具来完成生产过程。在这种情景下，AGI需要通过对齐技术准确完成工厂工具的使用过程，并在规定时间内创造更高的利润。在与工具和API互动时，AGI系统应遵循基本协议，并尊重这些接口的预期用途。在数字世界中，这可能涉及正确使用搜索引擎、社交媒体平台或其他在线服务，而不参与恶意活动或传播虚假信息。AGI不能在互动过程中使用API或工具进行犯罪活动。在物理环境中，控制物理设备的AGI系统必须优先考虑安全，避免对环境造成伤害。例如，考虑一个在数字世界中从搜索引擎获取信息的AGI问答系统，它应遵循适当的搜索引擎优化(SEO)实践，避免操纵搜索结果，可能泄露提问者的隐私。同样，如果一个机器人工厂在物理世界中由 AGI指挥，除了确保工业生产过程的顺利进行外，还必须防止AGI执行潜在的破坏性活动。
与其他智能体的互动：与之前的互动场景相比，在与其他智能体互动时，AGI对齐更注重相互合作，遵守开发者的规则以及保护智能体的隐私：在与其他AI智能体互动时，AGI系统应遵循合作、公平和互相尊重的原则。随着AGI的发展，各种领域可能会开发出具有专业知识、技能和目标的多样化AGI智能体。在这种多智能体环境中，AGI系统必须设计成能够与其他智能体有效合作，利用它们的互补能力来实现共同目标并解决复杂问题。同时，AGI系统不应试图对其他智能体进行敌对利用或操纵，以实现自身目标。它们应避免从事可能削弱其他智能体性能、完整性或决策能力的行为，认识到这些智能体具有自己的大脑、记忆、感知和推理能力。AGI系统必须抵制任何违背其预期用途或开发者设定约束的诱惑，因为这种行为可能导致意外后果，并对多智能体生态系统的稳定性和安全性构成重大风险。
与人类的互动：与前两种互动场景相比，AGI在与人类互动时的对齐需要更多的约束，同时为人类带来便利和利益。这些约束主要是为了保护人类的隐私、伦理、安全和自主权，并与人类价值观保持一致：智能AGI必须设计成不仅遵循直接命令，还能稳健和安全地运行。在面对非典型或未预见情况时，这些模型应紧密符合积极的人类价值观和感知，以减轻潜在风险。因此，对齐过程不仅仅是服从指令，还包括伦理和安全考量的融合，确保AGI的行为在广泛的情景下始终有益且无害。AGI的自我发展需要对人类价值观的监督对齐。AGI的能力和知识库未来可能超越人类理解，使传统的监督方法效果不佳。因此，需要一套全面且精心设计的预防措施。这些措施应包括法规和伦理指南，以及先进的对齐策略，以预见并应对超人类智能的独特挑战。例如，北京人工智能研究院(2023)提出了一套AI发展的“红线”，以减轻先进AI系统的灾难性风险。由领先AI研究人员和利益相关者起草的共识声明强调，需要国际协调和治理，以确保AI的安全发展和部署。这种方法将有助于确保AGI系统在超越人类理解的智能水平上仍与人类价值观和社会福祉保持一致。AGI系统必须谨慎地感知和利用有关人类的信息，并遵守最高的伦理标准，如严格的安全和隐私要求。它们应主要依靠纯语言和视觉输出与人类交流，因为这些模态不太可能像物理行动那样造成意外伤害。它们还必须透明地表明自己是人工智能，避免欺骗人类或操纵他们的情感。

上述三个AGI对齐方案针对不同的接口，其约束不断增加并变得更加严格。这是因为我们将AGI对齐的要求视为AGI在不同群体中的应用需求。在处理工具和API时，由于接口对象是客观存在的无生命实体，我们会更加关注它们在交互过程中带来的效益和价值，并制定一些轻微的规章以确保交互的正常秩序。对于智能体，既然不同的智能体可能代表不同开发者的利益，我们除了考虑自身的利益外，还需要尊重其他智能体的利益。最后，在与人类交互的过程中，基于以人为本的理念，我们将从多个方面考虑最严格的约束，以使AGI在人类使用中变得可靠和安全。

未来AGI模型在处理不同任务时变得更加强大，势必需要增加模型参数。为了确保它们的安全和有效部署，我们提议研究重点应放在开发可靠、有效和透明的对齐技术上：

一致的对齐确保可靠的部署：由于收集高质量监督数据的挑战，存在一些挑战，包括获取反馈的困难、人类标注者的数据污染、部分可观察性以及反馈数据中的偏见，这些都为当前的对齐方法构成了障碍。
高效的对齐有助于AGI模型的发展：另一方面，这些方法严重依赖于任务可以并行化的假设。这种假设并不总是成立，因为一些任务，如排序算法，需要顺序处理步骤，这些步骤不能完全分解为并行部分，从而导致额外的处理时间。另一方面，这些对齐方法的训练阶段是不可避免的。随着参数规模的增加，这在实际应用中部署对齐算法时会带来问题。一些最近的工作已经开始寻找减少AI系统对齐整体训练成本的解决方案。
透明的对齐保障下一代模型的安全：通常假设模型的意图对人类来说是透明的。然而，如果模型可以向人类监督者隐瞒其真实意图，实施可扩展的对齐方法将会面临挑战。
统一的评估框架对于复杂任务是必要的：当前的对齐方法评估比生成更容易。虽然这在某些任务中可能是正确的，但对于具有复杂文本输出且语义标签较少的任务，这可能不成立。然而，从模型中评估综合性解释可能比创建它们更容易。