Stable Diffusion模型—探析(PyTorch)
Stable Diffusion是一种基于扩散模型的文本到图像深度学习模型。该模型于2022年推出,由慕尼黑大学CompViz集团开发。基本功能:文本到图像生成:根据文字描述生成高质量图像;图像编辑:支持内补绘制、外补绘制等图像编辑功能;图像到图像转换:在提示词指导下修改现有图像。技术架构:使用潜在扩散模型(Latent Diffusion Model);由三部分组成:变分自编码器(VAE)、U-Net和文本编码器;在潜在空间中进行扩散过程,提高计算效率。性能:生成512x512分辨率的图像(2.0版本支持768x768);相对轻量级,U-Net有860M参数,文本编码器有123M参数。Stable Diffusion的出现标志着AI图像生成技术的重要进步,为创意工作者和普通用户提供了强大的工具。