去噪分数匹配是扩散模型学习如何逆转逐步向数据添加噪声过程的核心组件。在扩散建模中,目标是训练一个神经网络,通过多个步骤迭代地从已损坏的数据中去除噪声。去噪分数匹配通过专注于估计噪声数据分布的对数概率密度(“分数”)的梯度,为训练该网络提供了数学框架。该方法不是直接对干净数据建模,而是首先用噪声破坏数据,然后训练模型来预测扰动数据的分数,从而指导去噪过程。
去噪分数匹配和扩散模型之间的联系在于它们如何处理被噪声破坏的数据。在扩散中,前向过程通过一系列时间步系统地向数据添加高斯噪声。在训练期间,模型通过预测分数来逆转此过程,该分数是指移动噪声数据以使其在干净数据分布下更可能的方向。去噪分数匹配通过将问题定义为匹配噪声数据分布的分数来形式化这一点。例如,在每个时间步,模型都会获得一个噪声图像 **x_t**(通过向原始图像 **x_0** 添加噪声创建),并被训练来预测分数,该分数对应于将 **x_t** 移回 **x_0** 的梯度。该梯度与前向过程中添加的噪声成正比,允许模型学习逐步去噪程序。
一个实际的例子可以在训练用于图像的扩散模型中看到。假设我们有一个图像 **x_0**,并通过添加由时间步相关因子缩放的高斯噪声来生成噪声版本 **x_t**。该模型将 **x_t** 和时间步 **t** 作为输入,并输出 **x_t** 中噪声分量的估计值。此噪声估计与分数直接相关:分数是负噪声除以该时间步的噪声标准差。通过最小化预测噪声和实际噪声之间的差异(通过均方误差损失),该模型有效地学习了去噪数据所需的分数函数。这种方法可以跨所有时间步进行缩放,允许模型处理不同程度的损坏,并通过迭代细化生成高质量的样本。因此,去噪分数匹配为扩散模型提供了理论依据和实际的训练目标。