扩散模型通过一个结构化过程逐步添加和去除噪声来处理图像等高维数据。它们将高维空间的复杂性分解为更小、更易于管理的步骤。在训练过程中,一个正向过程通过在多个时间步长上添加高斯噪声来系统地破坏输入数据(例如,图像),直到数据类似于随机噪声。然后,神经网络学习在逆向过程中逆转这个过程,逐步预测如何对数据进行去噪。这种迭代方法避免了需要一次性建模整个数据分布,从而使处理高维任务成为可能。
扩散模型的架构针对图像等空间数据进行了优化。大多数实现使用基于 U-Net 的网络,这对于捕获分层特征非常有效。U-Nets 使用下采样和上采样层以及跳跃连接,在去噪过程中保留局部和全局结构。例如,在生成 256x256 图像时,U-Net 首先减小空间维度以识别更广泛的模式(如形状),然后重建精细细节(如纹理)。模型被训练来预测每个时间步长添加的噪声,从而使其能够迭代地优化输出。这种设计利用了图像固有的空间相关性,与独立建模像素相比,降低了计算复杂度。
在生成过程中,扩散模型通过逆转添加噪声的过程来产生高质量结果。模型从随机噪声开始,应用一系列去噪步骤,每个步骤都基于当前时间步长进行调整。例如,要生成一张逼真的人脸,早期步骤可能定义人脸的轮廓,而后续步骤则添加更精细的细节,如眼睛或发丝。这种逐步细化的方法将学习负担分散到整个网络中,防止其被数据的巨大维度所压倒。通过将问题分解为增量更新,扩散模型在保持计算效率的同时,有效应对高维空间的挑战。