扩散模型通过优化采样过程、调整模型架构和使用混合方法来平衡速度与质量之间的权衡。核心挑战在于,生成高质量输出通常需要许多迭代的去噪步骤,这在计算上很慢。为了解决这个问题,研究人员和开发者采用了多种技术,在不显著降低输出质量的情况下减少所需的步骤数,同时还优化了模型的设计和推理流程。
一个关键方法是提高采样效率。像 DDPM 这样的传统扩散模型需要数百或数千个去噪步骤。像 DDIM(去噪扩散隐式模型)这样的方法通过使用非马尔可夫噪声调度来允许更少的步骤,它们跳过中间步骤同时保持一致性,从而重塑了采样过程。例如,一个经过 1,000 步训练的模型可以使用 DDIM 在仅仅 50-100 步内生成可接受的结果。类似地,PLMS(伪线性多步采样)等技术重用过去的计算来预测未来的步骤,从而减少冗余。这些方法以轻微的质量下降(例如,纹理精度稍低)换取更快的生成速度,让开发者可以根据他们的需求调整步骤数。
另一种策略是优化模型架构。大型 U-Net 架构和大量的残差块可以产生高质量的结果,但速度较慢。潜在扩散模型(例如 Stable Diffusion)将数据压缩到较低维度的潜在空间中,从而减少计算开销。例如,Stable Diffusion 处理 64x64 的潜在表示,而不是 512x512 像素的图像,这将内存和计算量削减了约 90%。知识蒸馏也被用来训练一个较小的学生模型模仿较大教师模型的行为,从而实现更快的推理。例如,通过在更少的迭代中模仿原始模型的去噪步骤,Distilled-ADM 模型可以在最小的质量损失下实现 2-4 倍的速度提升。
最后,后训练优化和混合方法进一步弥合了差距。像渐进式采样这样的技术早期生成低分辨率输出,之后再进行细化,从而节省计算。量化(例如,FP16/INT8 精度)和针对 GPU 的优化(例如,TensorRT 或 Triton 内核)可以在无需重新训练的情况下加速推理。一些框架将扩散与 GAN 相结合,使用 GAN 在几个扩散步骤后细化输出。例如,LCDM 模型使用 GAN 来优化仅通过 4 个扩散步骤生成的图像,其质量可以媲美 100 个扩散步骤。这些方法让开发者可以选择合适的平衡点——优先考虑实时应用的速度或离线渲染的质量。