在扩散模型中选择扩散步数涉及平衡质量、计算成本和任务的特定需求。扩散模型通过在多个步骤中迭代地将噪声细化为结构化输出来生成数据。 通常,更多的步骤可以提高输出质量,因为模型有更多的机会来纠正错误,但这会增加计算时间成本。 例如,训练一个有 1,000 步的模型可能比训练一个有 100 步的模型产生更高保真度的图像,但生成单个样本将花费 10 倍的时间。 开发人员必须权衡增加的质量是否证明较慢的推理速度是合理的,尤其是在视频生成或交互式工具等实时应用中。
选择还取决于扩散过程的类型和所使用的采样器。 一些采样器,例如 DDIM(Denoising Diffusion Implicit Models,去噪扩散隐式模型),可以通过使用跳过中间噪声水平的非马尔可夫过程来减少步骤,而不会显著降低质量。 例如,在使用高效采样器时,以 1,000 步训练的模型可能会在 50-200 步中生成相当的结果。 开发人员通常通过从高步数(例如,1,000)开始,然后在检查伪像或质量下降的同时逐渐减少步数,来在推理期间试验步数。 诸如渐进式蒸馏之类的工具可以通过训练模型以在更少的步骤中模仿其自身的多步行为来进一步压缩步数,这对于在资源受限的环境中部署非常有用。
实际示例说明了步数如何因用例而异。 像 Stable Diffusion 这样的文本到图像模型通常使用 50-75 步进行快速生成,而医学成像或科学模拟可能需要数百步才能实现精度。 开发人员还可以动态调整步骤:对低分辨率预览使用较少的步骤,对最终输出使用更多的步骤。 诸如 Fréchet Inception Distance (FID) 或用户研究之类的验证指标可以帮助确定最佳折衷方案。 例如,如果模型的 FID 分数在 150 步后趋于平稳,则添加更多步骤会提供递减的回报。 最终,该决定取决于应用程序对延迟的容忍度、硬件限制以及可接受的输出质量阈值 - 这些因素需要针对每个特定实现进行迭代测试和调整。