UMBRELLA

未雨绸缪,举重若轻

直接偏好优化(Direct Preference Optimization,DPO)是一种用于微调大型语言模型(LLMs)以符合人类偏好的新方法。DPO旨在通过人类偏好数据来优化语言模型的输出,使其更符合人类期望,而无需使用强化学习或显式的奖励模型。DPO利用了奖励函数和最优策略之间的映射关系;它直接在策略(语言模型)上优化,而不是先学习奖励模型再优化策略;DPO将问题转化为一个简单的分类任务,在人类偏好数据上进行训练。

阅读全文 »

多层感知器(MLP)

多层感知器(MLP)是如何工作的?多层感知器(MLP)是由多个神经元层组成的神经网路,每个神经元层以前馈方式组织,这意味着一层的输出作为下一层的输入,通常在每一层,我们会放置一些非线性激活函数,例如RelU,在这种情况下,会形成一个非常简单的网络,如下图所示:

阅读全文 »

生成对抗网络(GAN)由Goodfellow等人在NeurIPS,2014中提出,是机器学习领域一项令人兴奋的最新创新。GAN是一种生成模型:它们会创建与您的训练数据相似的新数据实例。例如,即使这些脸不属于任何真实的人,GAN也可以创建看起来像人脸照片的图像。

阅读全文 »

高质量数据是深度学习模型训练的燃料。大多数特定任务的标记数据来自人工标注,例如分类任务或用于LLM对齐训练的RLHF labeling(基于人类反馈的强化学习标注)(可以构建为分类格式)。文章中的许多ML技术可以帮助提高数据质量,但从根本上讲,人工数据收集需要关注细节和谨慎行事。

阅读全文 »

过去几年,扩散模型在图像合成方面取得了显著成果。现在,研究界开始研究一项更艰巨的任务——将其用于视频生成。这项任务本身是图像情况的超集,因为图像是1帧的视频,而且它更具挑战性,因为:

  • 它对时间上跨帧的时间一致性有额外的要求,这自然要求将更多的世界知识编码到模型中。
  • 相比于文本或图像,收集大量高质量、高维的视频数据更加困难。
    阅读全文 »

扩散模型的灵感来自非平衡热力学。它们定义了一个马尔可夫链扩散步骤,以缓慢地向数据添加随机噪声,然后学习逆转扩散过程以从噪声中构建所需的数据样本。与VAE或流模型不同,扩散模型是通过固定程序学习的,并且潜在变量具有高维度(与原始数据相同)。

阅读全文 »

自注意力机制

自注意力等相关机制是LLM的核心组成部分。深度学习中的“注意力”概念源于改进循环神经网络(RNN)以处理较长的序列或句子所做的努力。例如,考虑将一个句子从一种语言翻译成另一种语言。逐字翻译一个句子通常不是一种选择,因为它忽略了每种语言独有的复杂语法结构和惯用表达,导致翻译不准确或无意义。

阅读全文 »

Transformer(将被称为“vanilla Transformer”以区别于其他增强版本;Vaswani等人,2017年)模型具有编码器-解码器架构,这在许多NMT模型中很常见。后来简化的 Transformer在语言建模任务中表现出色,例如在仅编码器的BERT或仅解码器的GPT中。

阅读全文 »

论文中提出了推测性采样算法,这是一种通过从每个Transformer调用生成多个token来加速Transformer解码的算法。推测采样算法依赖于以下观察:由更快但能力较弱的draft模型生成的短连续并行评分的延迟与从较大的目标模型中采样单个token的延迟相当。这与一种新颖的改进拒绝采样方案相结合,该方案在硬件数值内保留了目标模型的分布。使用Chinchilla(一个700亿参数语言模型)对推测性采样进行基准测试,在分布式设置中实现了2-2.5倍解码速度的提高,而且不会影响样本质量或对模型本身的变更。

阅读全文 »
0%