DDIM(去噪扩散隐式模型)基于扩散类生成模型,但引入了关键的理论修改以提高采样效率。像 DDPM(去噪扩散概率模型)这样的传统扩散模型模拟了逐步向数据添加噪声的马尔可夫链,然后学习反转此过程。然而,使用 DDPM 生成样本需要数百甚至数千步,计算成本高昂。DDIM 通过将扩散过程重新定义为非马尔可夫链来解决这个问题,从而可以在不牺牲样本质量的情况下使用更少的步骤。这通过将训练目标与采样过程解耦来实现,从而能够进行确定性或部分确定性的生成路径,跳过中间步骤。
DDIM 的核心创新在于其非马尔可夫正向过程和确定性逆向过程。与 DDPM 不同的是,DDPM 中每一步仅依赖于先前的状态(马尔可夫假设),而 DDIM 允许步骤依赖于多个先前的状态。这种灵活性源于使用微分方程框架重新参数化扩散过程。例如,DDIM 将逆向过程视为求解将噪声映射回数据的常微分方程 (ODE)。通过固定噪声计划和方差参数(而不是学习它们),DDIM 简化了采样轨迹。这种确定性方法确保相同的潜在变量产生相同的输出,从而实现了潜在空间中一致插值等功能。例如,开发者可以通过插值两个图像的潜在编码来平滑过渡,这在随机 DDPM 采样中更难实现。
从实际角度来看,DDIM 保留了与 DDPM 相同的训练过程,这意味着现有的扩散模型可以在不重新训练的情况下适应使用 DDIM 采样。这种兼容性对开发者至关重要:使用 DDPM 的噪声预测目标训练的模型可以使用 DDIM 的基于 ODE 的采样更快地生成样本。例如,使用 DDIM 生成高质量图像可能需要 50 步,而使用 DDPM 则需要 1000 步。权衡在于由于确定性特性导致样本多样性略有损失,但质量保持可比。DDIM 的理论框架还引入了“采样轨迹”的概念,开发者可以通过调整步骤数量或噪声计划来平衡速度和质量。这使得 DDIM 成为需要快速迭代的应用(例如实时图像编辑或设计原型制作)的多功能工具。