UMBRELLA

Stable Diffusion模型—探析（PyTorch）

发表于 2024-07-10 分类于人工智能本文字数： 3.9k 阅读时长 ≈ 13 分钟

Stable Diffusion是一种基于扩散模型的文本到图像深度学习模型。该模型于2022年推出，由慕尼黑大学CompViz集团开发。基本功能：文本到图像生成:根据文字描述生成高质量图像；图像编辑:支持内补绘制、外补绘制等图像编辑功能；图像到图像转换:在提示词指导下修改现有图像。技术架构：使用潜在扩散模型(Latent Diffusion Model)；由三部分组成:变分自编码器(VAE)、U-Net和文本编码器；在潜在空间中进行扩散过程,提高计算效率。性能：生成512x512分辨率的图像(2.0版本支持768x768)；相对轻量级,U-Net有860M参数,文本编码器有123M参数。Stable Diffusion的出现标志着AI图像生成技术的重要进步,为创意工作者和普通用户提供了强大的工具。

阅读全文 »

BERT模型—探析（Transformer）

发表于 2024-07-08 分类于人工智能本文字数： 1.8k 阅读时长 ≈ 6 分钟

语言模型是一种概率模型，它为单词序列分配概率。实际上，语言模型允许我们计算以下内容：我们通常训练一个神经网络来预测这些概率。在大量文本上训练的神经网络被称为大型语言模型(LLM)。

阅读全文 »

检索增强生成（RAG）：嵌入向量 & Sentence BERT & HNSW

发表于 2024-07-08 分类于人工智能本文字数： 2.7k 阅读时长 ≈ 9 分钟

语言模型是一种概率模型，它为单词序列分配概率。实际上，语言模型允许我们计算以下内容：我们通常训练一个神经网络来预测这些概率。在大量文本上训练的神经网络被称为大型语言模型(LLM)。

阅读全文 »

分布式训练—架构（深度学习&数据处理）

发表于 2024-07-04 分类于人工智能本文字数： 4.2k 阅读时长 ≈ 14 分钟

分布式训练是一种将模型训练工作负载分散到多个处理单元（如GPU或计算节点）上的技术，以加速训练过程并提高模型性能。分布式训练通过将训练任务分配给多个工作节点（worker nodes），这些节点并行工作，从而加速模型训练。分布式训练特别适用于深度学习模型，因为这些模型通常具有大量参数和计算需求。分布式训练分类：

阅读全文 »

量化(Quantization)（深度学习）

发表于 2024-07-03 分类于人工智能本文字数： 1.9k 阅读时长 ≈ 6 分钟

量化(Quantization)是一种用于减少深度学习模型计算和存储成本的技术，量化是将高精度数据(通常是32位浮点数)转换为低精度数据类型(如8位整数)的过程。目标是减小模型大小、降低内存带宽需求、加快推理速度、减少能耗。量化方案：对称量化(Symmetric Quantization)、非对称量化(Asymmetric Quantization)。量化是一种强大的模型优化技术,能够在保持模型性能的同时显著减少资源需求,使得复杂的深度学习模型能够在资源受限的环境中高效运行。

阅读全文 »

Mistral / Mixtral：滑动窗口注意力 & 稀疏专家混合 & 滚动缓冲区

发表于 2024-07-02 分类于人工智能本文字数： 3.2k 阅读时长 ≈ 11 分钟

Mixtral是由Mistral AI公司开发的一种先进的大型语言模型。Mixtral采用混合专家(Mixture of Experts, MoE)架构，总参数量为46.7B，但每次推理只使用约12.9B参数，稀疏混合专家网络架构，每层包含8个专家(前馈神经网络块)，对每个token,路由器选择2个专家处理，32K tokens的上下文窗口，支持英语、法语、意大利语、德语和西班牙语，在代码生成方面表现出色。在多项基准测试中表现优异，超越了许多更大规模的模型，推理速度快，效率高；在多数基准测试中优于Llama 2 70B和GPT-3.5，推理速度是Llama 2 70B的6倍。

阅读全文 »

序列化建模：Mamba / S4（深度学习）

发表于 2024-06-29 分类于人工智能本文字数： 5.4k 阅读时长 ≈ 18 分钟

序列模型的目标是将输入序列映射到输出序列。我们可以将连续输入序列映射到输出序列，或者将离散输入序列映射到离散输出序列。

阅读全文 »

基于人类反馈的强化学习(RLHF) — 推导（深度学习）

发表于 2024-06-28 分类于人工智能本文字数： 5.5k 阅读时长 ≈ 18 分钟

基于人类反馈的强化学习(Reinforcement Learning Human Feedback, RLHF)是一种结合强化学习技术和人类反馈来训练人工智能(AI)模型的方法。RLHF是一种机器学习方法，通过人类反馈来优化AI模型的行为，使其更符合人类的期望和偏好。这种方法特别适用于自然语言处理(NLP)任务，如对话系统、文本生成和摘要生成等。RLHF的训练过程通常分为三个主要阶段：

阅读全文 »

直接偏好优化(DPO)：Bradley-Terry模型 & 对数概率（深度学习）

发表于 2024-06-26 分类于人工智能本文字数： 3k 阅读时长 ≈ 10 分钟

直接偏好优化(Direct Preference Optimization,DPO)是一种用于微调大型语言模型(LLMs)以符合人类偏好的新方法。DPO旨在通过人类偏好数据来优化语言模型的输出,使其更符合人类期望,而无需使用强化学习或显式的奖励模型。DPO利用了奖励函数和最优策略之间的映射关系；它直接在策略(语言模型)上优化,而不是先学习奖励模型再优化策略；DPO将问题转化为一个简单的分类任务,在人类偏好数据上进行训练。

阅读全文 »

多层感知器(MLP) vs 科尔莫戈罗夫-阿诺德网络(KAN)（机器学习）

发表于 2024-06-25 分类于人工智能本文字数： 5.3k 阅读时长 ≈ 18 分钟

多层感知器(MLP)

多层感知器(MLP)是如何工作的？多层感知器(MLP)是由多个神经元层组成的神经网路，每个神经元层以前馈方式组织，这意味着一层的输出作为下一层的输入，通常在每一层，我们会放置一些非线性激活函数，例如RelU，在这种情况下，会形成一个非常简单的网络，如下图所示：

阅读全文 »