扩散模型中的 beta 调度直接控制训练期间添加噪声的方式,从而影响模型学习逆向扩散过程的能力。调度定义了噪声(由 beta 值控制)随时间步长增加的速度,影响了高噪声和低噪声训练样本之间的平衡。精心设计的调度确保模型有效地学习处理粗粒度和细粒度的去噪步骤。例如,线性增加噪声的调度可能会过度简化中间步骤,而非线性调度则可以将更多训练时间分配给关键噪声水平,从而提高模型性能。
选择 beta 调度会影响训练稳定性和输出质量。例如,线性调度(如 beta 在 1000 步内从 1e-4 增加到 0.02)均匀地添加噪声,但这可能导致噪声水平之间发生突然的过渡,使得模型难以学习平滑的去噪过程。相比之下,余弦调度(其中 beta 值遵循余弦曲线)在过程的早期和晚期减慢了噪声增加的速度。这为模型在通常最困难的中等噪声水平下提供了更多训练步骤。在 DDPM (Denoising Diffusion Probabilistic Models) 等框架中的实验表明,余弦调度可以减少生成的图像中的伪影,因为模型花费更多时间学习在中等噪声水平下优化细节。
开发者在选择 beta 调度时应考虑其任务需求。例如,需要高保真输出的任务,如图像合成,可能会受益于优先处理中期训练噪声水平的余弦或自定义调度。相反,对于计算资源有限的简单任务,线性调度可能就足够了。调整调度通常需要反复试验:从既定的调度(例如,来自 DDPM 或 Improved Diffusion 论文)开始,并根据验证损失趋势调整 beta 范围或曲线。由于训练扩散模型是资源密集型的,即使是调度中的微小变化——例如延长低噪声步骤的启动阶段——也可能显著影响训练时间和最终模型质量,而无需修改架构。