UMBRELLA

未雨绸缪,举重若轻

分布式训练是一种将模型训练工作负载分散到多个处理单元(如GPU或计算节点)上的技术,以加速训练过程并提高模型性能。分布式训练通过将训练任务分配给多个工作节点(worker nodes),这些节点并行工作,从而加速模型训练。分布式训练特别适用于深度学习模型,因为这些模型通常具有大量参数和计算需求。分布式训练分类

阅读全文 »

量化(Quantization)是一种用于减少深度学习模型计算和存储成本的技术,量化是将高精度数据(通常是32位浮点数)转换为低精度数据类型(如8位整数)的过程。目标是减小模型大小、降低内存带宽需求、加快推理速度、减少能耗。量化方案:对称量化(Symmetric Quantization)、非对称量化(Asymmetric Quantization)。量化是一种强大的模型优化技术,能够在保持模型性能的同时显著减少资源需求,使得复杂的深度学习模型能够在资源受限的环境中高效运行。

阅读全文 »

Mixtral是由Mistral AI公司开发的一种先进的大型语言模型。Mixtral采用混合专家(Mixture of Experts, MoE)架构,总参数量为46.7B,但每次推理只使用约12.9B参数,稀疏混合专家网络架构,每层包含8个专家(前馈神经网络块),对每个token,路由器选择2个专家处理,32K tokens的上下文窗口,支持英语、法语、意大利语、德语和西班牙语,在代码生成方面表现出色。在多项基准测试中表现优异,超越了许多更大规模的模型,推理速度快,效率高;在多数基准测试中优于Llama 2 70BGPT-3.5,推理速度是Llama 2 70B6倍。

阅读全文 »

基于人类反馈的强化学习(Reinforcement Learning Human Feedback, RLHF)是一种结合强化学习技术和人类反馈来训练人工智能(AI)模型的方法。RLHF是一种机器学习方法,通过人类反馈来优化AI模型的行为,使其更符合人类的期望和偏好。这种方法特别适用于自然语言处理(NLP)任务,如对话系统、文本生成和摘要生成等。RLHF的训练过程通常分为三个主要阶段:

阅读全文 »

直接偏好优化(Direct Preference Optimization,DPO)是一种用于微调大型语言模型(LLMs)以符合人类偏好的新方法。DPO旨在通过人类偏好数据来优化语言模型的输出,使其更符合人类期望,而无需使用强化学习或显式的奖励模型。DPO利用了奖励函数和最优策略之间的映射关系;它直接在策略(语言模型)上优化,而不是先学习奖励模型再优化策略;DPO将问题转化为一个简单的分类任务,在人类偏好数据上进行训练。

阅读全文 »

多层感知器(MLP)

多层感知器(MLP)是如何工作的?多层感知器(MLP)是由多个神经元层组成的神经网路,每个神经元层以前馈方式组织,这意味着一层的输出作为下一层的输入,通常在每一层,我们会放置一些非线性激活函数,例如RelU,在这种情况下,会形成一个非常简单的网络,如下图所示:

阅读全文 »

生成对抗网络(GAN)由Goodfellow等人在NeurIPS,2014中提出,是机器学习领域一项令人兴奋的最新创新。GAN是一种生成模型:它们会创建与您的训练数据相似的新数据实例。例如,即使这些脸不属于任何真实的人,GAN也可以创建看起来像人脸照片的图像。

阅读全文 »

高质量数据是深度学习模型训练的燃料。大多数特定任务的标记数据来自人工标注,例如分类任务或用于LLM对齐训练的RLHF labeling(基于人类反馈的强化学习标注)(可以构建为分类格式)。文章中的许多ML技术可以帮助提高数据质量,但从根本上讲,人工数据收集需要关注细节和谨慎行事。

阅读全文 »

过去几年,扩散模型在图像合成方面取得了显著成果。现在,研究界开始研究一项更艰巨的任务——将其用于视频生成。这项任务本身是图像情况的超集,因为图像是1帧的视频,而且它更具挑战性,因为:

  • 它对时间上跨帧的时间一致性有额外的要求,这自然要求将更多的世界知识编码到模型中。
  • 相比于文本或图像,收集大量高质量、高维的视频数据更加困难。
    阅读全文 »
0%