Transformer模型—探析(深度学习)
变分自动编码器(VAE)—探析(深度学习)
Autoencoder
是一种用于无监督学习的神经网络模型,旨在通过压缩和重建数据来学习数据的有效表示。Autoencoder
由两个主要部分组成:编码器(Encoder
)和解码器(Decoder
)。
LongNet模型—探析(PyTorch)
LongNet
是微软研究院提出的一种创新的Transformer
变体模型,其主要特点是能够处理极长序列,最多可达10
亿个token
。引用:LONGNET: Scaling Transformers to 1,000,000,000 Tokens
,原理和特点:
LoRA模型—探析(PyTorch)
LoRA
(Low-Rank Adaptation
) 是一种用于大型语言模型微调的高效技术。LoRA
旨在解决大语言模型微调时的计算资源和存储空间问题。在原始预训练模型中增加一个低秩矩阵作为旁路,只训练这个低秩矩阵,而冻结原模型参数。工作原理:在原模型权重矩阵
SAM模型—探析(PyTorch)
什么是图像分割?图像分割是将数字图像划分为多个区域(或段)的过程,使得属于同一区域(或段)的像素共享一些(语义)特征。应用领域:医学成像(定位肿瘤);物体检测(行人检测、卫星图像中的物体检测);基于内容的图像检索(查找所有包含猫/狗/披萨的图像)。面临的挑战:标记数据集困难且成本高昂(操作员需要创建像素完美的区域);模型通常是特定于应用程序的(例如,仅针对特定类型的医疗应用进行训练,而不能应用于行人检测等其他领域);以前的模型通常不可提示,也就是说,我们无法告诉模型只分割人、汽车或狗。
LLaMA 2 模型—探析(PyTorch)
LLaMA 2
是Meta AI
(原Facebook AI
)在2023
年7
月发布的大型语言模型系列,是LLaMA
模型的第二代版本。模型规模:包含70
亿、130
亿和700
亿参数三种规模的模型。比LLaMA 1
增加了一个700
亿参数的大型模型。训练数据:使用2
万亿个tokens
进行预训练,比LLaMA 1
增加了40%
;完全使用公开可用的数据集,不依赖专有数据。性能改进:在多数基准测试中,性能超过了同等规模的开源模型;130
亿参数版本在某些任务上甚至超过了GPT-3
(1750
亿参数)。对话优化:提供了针对对话场景优化的LLaMA 2-Chat
版本;使用了超过100
万人工标注进行微调。安全性:在模型训练中加入了安全性改进措施;使用人类反馈强化学习(RLHF
)来确保安全性和有用性。技术创新:使用分组查询注意力(GQA
)机制提高效率;上下文长度增加到4096 tokens
,是LLaMA 1
的两倍。
Stable Diffusion模型—探析(PyTorch)
Stable Diffusion
是一种基于扩散模型的文本到图像深度学习模型。该模型于2022
年推出,由慕尼黑大学CompViz
集团开发。基本功能:文本到图像生成:根据文字描述生成高质量图像;图像编辑:支持内补绘制、外补绘制等图像编辑功能;图像到图像转换:在提示词指导下修改现有图像。技术架构:使用潜在扩散模型(Latent Diffusion Model
);由三部分组成:变分自编码器(VAE
)、U-Net
和文本编码器;在潜在空间中进行扩散过程,提高计算效率。性能:生成512x512
分辨率的图像(2.0
版本支持768x768
);相对轻量级,U-Net
有860M
参数,文本编码器有123M
参数。Stable Diffusion
的出现标志着AI图像生成技术的重要进步,为创意工作者和普通用户提供了强大的工具。
BERT模型—探析(Transformer)
语言模型是一种概率模型,它为单词序列分配概率。实际上,语言模型允许我们计算以下内容:我们通常训练一个神经网络来预测这些概率。在大量文本上训练的神经网络被称为大型语言模型(LLM
)。
检索增强生成(RAG):嵌入向量 & Sentence BERT & HNSW
语言模型是一种概率模型,它为单词序列分配概率。实际上,语言模型允许我们计算以下内容:我们通常训练一个神经网络来预测这些概率。在大量文本上训练的神经网络被称为大型语言模型(LLM
)。