Stable Diffusion模型—探析(PyTorch)
Stable Diffusion
是一种基于扩散模型的文本到图像深度学习模型。该模型于2022
年推出,由慕尼黑大学CompViz
集团开发。基本功能:文本到图像生成:根据文字描述生成高质量图像;图像编辑:支持内补绘制、外补绘制等图像编辑功能;图像到图像转换:在提示词指导下修改现有图像。技术架构:使用潜在扩散模型(Latent Diffusion Model
);由三部分组成:变分自编码器(VAE
)、U-Net
和文本编码器;在潜在空间中进行扩散过程,提高计算效率。性能:生成512x512
分辨率的图像(2.0
版本支持768x768
);相对轻量级,U-Net
有860M
参数,文本编码器有123M
参数。Stable Diffusion
的出现标志着AI图像生成技术的重要进步,为创意工作者和普通用户提供了强大的工具。