UMBRELLA

未雨绸缪,举重若轻

介绍

MixLoRA是一种用于优化大规模语言模型(LLMs)微调的新方法,结合了LoRA(Low-Rank Adaptation)和专家混合(Mixture of Experts, MoE)技术。大规模语言模型的微调通常需要大量的计算资源和显存。LoRA通过引入低秩适配器,显著减少了微调时的参数数量和显存需求。然而,LoRA在多任务学习场景中的性能仍有提升空间。专家混合模型(MoE)在多任务学习中表现出色,但其资源需求对普通消费者级GPU来说是一个挑战。

阅读全文 »

介绍

LLM基准如何运作?从本质上讲,LLM基准测试遵循一个相当简单的原则:给模型一个任务,看看它表现如何,然后测量评估结果。但是,在评估可靠性方面存在一些细微差别。运行基准测试有以下几种方法:

  • 零样本:模型在没有任何先前示例或提示的情况下接受任务。这展示了其理解和适应新情况的原始能力。
  • 少量样本:在要求LLM解决类似任务之前,会先给其一些如何完成任务的示例。这揭示了其从少量数据中学习的能力。
  • 微调:在这种情况下,LLM专门针对与基准任务相关的数据进行训练,目的是最大限度地提高其在该特定领域的熟练程度。如果微调有效,它将展示模型在任务中的最佳性能。
    阅读全文 »

介绍

可解释机器学习是指使机器学习系统的行为和预测可以被人类理解的方法和模型。数据集是包含机器学习数据的表格。数据集包含特征和要预测的目标。当用于建立模型时,数据集称为训练数据实例是数据集中的一行。“实例”的其他名称是:(数据)点、示例。实例由特征值组成以及目标结果。特征是用于预测或分类的输入。特征是数据集中的一列。特征被认为是可解释的,这意味着很容易理解它们的含义,例如某一天的温度或一个人的身高。特征的可解释性是一个很大的假设。但如果很难理解输入特征,那么理解模型的作用就更难了。目标是机器学习预测的信息。在数学公式中,对于单个实例来说,目标通常称为或者机器学习任务是具有特征的数据集和目标的组合。根据目标的类型,任务可以是分类、回归、聚类或异常值检测等。预测是机器学习模型根据给定的特征“猜测”目标值应该是什么。模型预测表示为或者

阅读全文 »

介绍

CLIP(Contrastive Language-Image Pretraining)是由OpenAI开发的一种多模态学习模型,旨在通过自然语言描述来学习视觉概念CLIP的核心在于将图像和文本嵌入到一个共同的语义空间中,从而实现跨模态的理解和应用。

阅读全文 »

介绍

Transformer是一种由Google团队在2017年提出的深度学习模型,专门用于自然语言处理(NLP)任务。它的核心机制是自注意力(Self-Attention)或缩放点积注意力(Scaled Dot-Product Attention),能够处理输入序列中的每个元素,并计算其与序列中其他元素的交互关系。这使得模型能够更好地理解序列中的上下文关系。

阅读全文 »

LoRA(Low-Rank Adaptation) 是一种用于大型语言模型微调的高效技术。LoRA旨在解决大语言模型微调时的计算资源和存储空间问题。在原始预训练模型中增加一个低秩矩阵作为旁路,只训练这个低秩矩阵,而冻结原模型参数。工作原理:在原模型权重矩阵旁边增加一个低秩分解矩阵是一个的矩阵,是一个的矩阵,其中;训练时只更新,保持原始权重不变;推理时将相加:

阅读全文 »

什么是图像分割?图像分割是将数字图像划分为多个区域(或段)的过程,使得属于同一区域(或段)的像素共享一些(语义)特征。应用领域:医学成像(定位肿瘤);物体检测(行人检测、卫星图像中的物体检测);基于内容的图像检索(查找所有包含猫/狗/披萨的图像)。面临的挑战:标记数据集困难且成本高昂(操作员需要创建像素完美的区域);模型通常是特定于应用程序的(例如,仅针对特定类型的医疗应用进行训练,而不能应用于行人检测等其他领域);以前的模型通常不可提示,也就是说,我们无法告诉模型只分割人、汽车或狗。

阅读全文 »

LLaMA 2Meta AI(原Facebook AI)在20237月发布的大型语言模型系列,是LLaMA模型的第二代版本。模型规模:包含70亿、130亿和700亿参数三种规模的模型。比LLaMA 1增加了一个700亿参数的大型模型。训练数据:使用2万亿个tokens进行预训练,比LLaMA 1增加了40%;完全使用公开可用的数据集,不依赖专有数据。性能改进:在多数基准测试中,性能超过了同等规模的开源模型;130亿参数版本在某些任务上甚至超过了GPT-3(1750亿参数)。对话优化:提供了针对对话场景优化的LLaMA 2-Chat版本;使用了超过100万人工标注进行微调。安全性:在模型训练中加入了安全性改进措施;使用人类反馈强化学习(RLHF)来确保安全性和有用性。技术创新:使用分组查询注意力(GQA)机制提高效率;上下文长度增加到4096 tokens,是LLaMA 1的两倍。

阅读全文 »
0%