评估扩散模型的泛化能力包括测试模型在未明确训练的数据上表现良好的能力。这一点至关重要,因为过度拟合训练数据的模型难以应用于实际场景。一种常见的方法是跨数据集评估,即在一个数据集上训练模型,然后在另一个具有不同特征的数据集上进行测试。例如,在 CIFAR-10(32x32 自然图像)上训练的模型可能在 STL-10(96x96 图像)或 ImageNet 的子集上进行评估。如果模型为新数据集生成合理的样本,则表明具有很强的泛化能力。此外,在具有领域转移的数据(例如草图而不是照片)上进行测试可以揭示其适应性。例如,在人脸上训练的模型在给出卡通人物的提示时,仍应生成合理的输出。
Fréchet Inception Distance (FID) 和 Inception Score (IS) 等定量指标提供了衡量泛化能力的标准化方法。FID 比较生成数据和真实数据分布之间的统计相似性,而 IS 评估生成样本的多样性和可识别性。在未见过的数据集上较低的 FID 和较高的 IS 分数表明更好的泛化能力。然而,这些指标也存在局限性:FID 依赖于可能与目标域不一致的预训练特征。为了解决这个问题,开发人员可以使用特定领域的指标,例如下游任务的类精度。例如,生成医学图像并测试其在训练诊断分类器中的效用。如果分类器表现良好,则意味着扩散模型推广到其训练数据之外。
受控实验也有助于评估泛化能力。一种方法是数据消融——在数据子集上训练模型(例如,从 ImageNet 中删除“狗”这样的类),并测试它是否可以通过学习的模式生成缺失的类。另一种方法是在推理过程中改变噪声计划或扩散步骤,以查看输出是否保持稳定。例如,减少去噪步骤的数量可能会暴露出对训练数据的过度依赖。迁移学习场景,例如在小型数据集(例如 100 张鸟类物种图像)上微调预训练模型,可以测试其适应性。如果微调后的模型生成小型数据集中不存在的各种鸟类,则表明具有泛化能力。这些实验提供了关于设计选择如何影响模型处理未见数据的能力的可操作的见解。