Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。它是一个 AI 自动生成图片的软件,通过用户输入文字就能生成对应的图片。其核心组件包括将用户输入的 Prompt 文本转化成 text embedding 的 CLIP、VAE EncoderDecoder 以及进行迭代降噪并在文本引导下进行多轮预测的 UNET 等。
在硬件要求方面,建议使用不少于 16GB 内存,并有 60GB 以上的硬盘空间,需要用到 CUDA 架构,推荐使用 N 卡。目前也有对 A 卡的相关支持,但运算速度明显慢于 N 卡。在训练方面,不同模型有不同的训练要求,例如 SD1.5 训练要求 12G VARM,SDXL 训练要求 16G VARM。此外,还有诸如模型实例、融合模型、微调模型等相关内容。
2025-03-25