当模型记住来自训练数据的特定细节或模式,从而降低其为未见输入生成多样化、高质量输出的能力时,扩散模型中就会发生过拟合。扩散模型学习逆转向数据添加噪声的过程,逐渐将随机噪声细化为连贯的样本。当发生过拟合时,模型会过度专门化于训练示例,通常产生过于紧密地复制训练数据或缺乏变化的输出。这破坏了模型的核心目的:生成新颖、逼真的样本,这些样本可以推广到训练集之外。
过拟合的一个明显迹象是,即使在被提示不同的条件或噪声输入时,模型也会生成几乎相同的训练样本副本。例如,在面部数据集上训练的扩散模型可能会重复输出训练数据中看到的相同面部特征、姿势或背景,而不是创建独特的变体。另一个指标是验证指标的性能不佳,例如训练损失(保持较低)和验证损失(停滞或增加)之间存在显着差距。这表明该模型正在优化记忆,而不是学习底层数据分布。此外,过度拟合的模型可能难以进行插值——例如,在潜在空间中平滑地在概念之间过渡——因为它们依赖于固定模式而不是可推广的特征。
扩散模型中的过拟合通常源于数据多样性不足、模型容量过大或正则化不足。例如,在具有重复示例的小型数据集(例如,同一对象的 100 张图像)上进行训练会增加记忆的风险。解决方案包括使用增强(例如,旋转、裁剪)扩展数据集,降低模型复杂性(更少的层或参数),或在训练期间应用 dropout 或噪声增强等正则化技术。调整噪声计划(添加和去除噪声的过程)也有助于迫使模型关注更广泛的模式而不是精细的细节。基于验证损失的提前停止是另一种实用的缓解措施。通过解决这些因素,开发人员可以确保模型学习能够推广到新数据的鲁棒特征。