与标准扩散模型相比,潜在扩散模型(LDMs)的训练方法主要区别在于它们处理数据表示和计算效率的方式。标准扩散模型直接在图像的像素空间中操作,在训练和推理过程中逐渐添加和移除噪声。这种方法需要很高的计算资源,特别是对于大图像,因为需要处理每个像素。另一方面,潜在扩散模型(LDMs)使用自编码器将输入数据压缩到低维潜在空间中。扩散过程在这个压缩空间中进行,从而在保持质量的同时减少了计算需求。例如,Stable Diffusion 使用变分自编码器(VAE)将图像编码成潜在表示,使得扩散模型能够在更小的张量(例如 64x64,而不是 512x512 像素)上工作,从而加快了训练和推理速度。
LDMs 的训练过程涉及两个主要组成部分:自编码器和扩散模型。首先,自编码器被单独训练,用于将数据编码到有意义的潜在空间中并准确地解码回来。这一步确保了潜在空间保留了原始数据的基本特征。一旦自编码器稳定,就可以在潜在空间中训练扩散模型。与标准扩散类似,噪声被迭代地添加到潜在向量中,模型学习通过预测每一步的噪声来逆转这一过程。然而,LDMs 通常通过使用交叉注意力层来整合条件机制,例如文本提示。例如,在文本到图像生成中,模型在训练过程中学习将文本嵌入与相应的潜在特征关联起来。由于维度降低,这种条件化能够在保持计算易于管理的同时实现受控生成。
LDMs 的一个实际优势是它们的可扩展性。通过避免像素级处理,它们需要更少的内存和计算能力,使得资源有限的开发者也能使用。例如,在高清图像上训练标准扩散模型可能需要多个高端 GPU,而像 Stable Diffusion 这样的 LDM 可以在单个消费级 GPU 上进行微调。然而,LDMs 依赖于自编码器的质量——不良的压缩可能导致伪影或细节丢失。开发者必须平衡自编码器的压缩率与重建保真度。此外,LDMs 通常使用无分类器引导(classifier-free guidance)等技术来提高样本质量,这会在推理过程中调整条件强度。这些权衡使得 LDMs 成为图像生成、图像修复或风格迁移等任务的灵活选择,在这些任务中,效率和控制是优先考虑的因素。