在扩散模型中平衡样本多样性与保真度,需要调整训练技术、采样策略和架构选择,以便在生成多样化输出和确保输出与训练数据一致之间取得权衡。多样性指的是模型生成不同样本的能力,而保真度衡量的是这些样本与真实数据的匹配程度。平衡这两者至关重要,因为过度强调多样性可能导致不切实际的输出,而过度追求保真度则可能导致重复或过于保守的生成结果。
一种关键方法是调整噪声调度和采样步数。扩散模型的工作原理是在训练和推理过程中逐渐添加和去除噪声。较慢、更精细的噪声调度(例如,使用 1,000 步而不是 50 步)可以让模型细化细节,提高保真度。然而,如果采样过程变得过于确定性,这可能会降低多样性。例如,减少步数或使用更快的调度(如 DDIM)可以引入随机性,增加多样性,但有时会产生伪影。开发者经常尝试混合调度,例如先使用粗略、快速的去噪步骤,然后进行更精细的调整,以平衡这两个目标。指导尺度(例如,无分类器指导)等工具也有帮助:较高的指导权重将输出推向更接近数据分布(保真度),而较低的权重则允许更多创造性的偏差(多样性)。
另一种方法是修改训练目标和数据集。使用包含各种示例的多元化数据集进行训练,自然会鼓励模型生成多样化的输出。然而,如果数据存在不一致或噪声,模型可能难以保持保真度。数据增强或加权损失函数等技术可以提供帮助。例如,对高细节区域(例如图像中的人脸)的重建错误施加更强的惩罚可以提高保真度,而对背景区域放宽约束则可以增加多样性。架构选择,例如使用带跳跃连接的 U-Net,也起作用:跳跃连接保留结构细节(保真度),而网络中的随机层(例如采样过程中的 dropout)则引入受控的随机性(多样性)。使用 Fréchet Inception Distance (FID) 等指标衡量保真度,并使用成对样本差异性衡量多样性,有助于量化权衡并指导调整。
最后,后处理和用户控制提供了实用的解决方案。例如,允许用户调整噪声采样器的温度或条件信号(如文本提示)的强度等参数,使得应用程序可以按需优先考虑多样性或保真度。在文本到图像模型中,较高的温度会增加潜在空间的随机性,从而生成对提示的多样化解释,而较低的温度会产生更可预测的结果。类似地,迭代细化循环(用户重新生成输出的一部分)可以将高保真度的基础结构与多样化的变化相结合。通过向开发者和终端用户开放这些控制,扩散模型不再是固定的解决方案,而是成为适应性强的工具,能够在创造性和准确性之间实现特定于上下文的平衡。