扩散模型通常使用评估生成输出质量、多样性和实际可用性的指标进行评估。三个广泛使用的指标是 Fréchet Inception Distance (FID)、Inception Score (IS) 和 Precision/Recall (精确率/召回率)。 FID 通过比较从预训练的 Inception-v3 模型中提取的特征,来衡量真实图像和生成图像的分布之间的相似性。较低的 FID 值表示与真实数据更好地对齐。另一方面,IS 将分类器 (Inception-v3) 将类分配给生成图像的置信度与样本之间类的多样性相结合。虽然 IS 强调清晰度和多样性,但它通常无法检测到模式崩溃(例如,模型重复生成相同的高质量图像)。例如,如果在人脸上训练的扩散模型生成清晰且跨越多个人口统计数据的输出,即使某些种族代表性不足,也可能获得较高的 IS。
另一组指标侧重于 Precision (精确率) 和 Recall (召回率),针对生成模型进行了调整,以将质量(精确率)与覆盖率(召回率)分开。精确率衡量有多少生成的样本是真实的,而召回率量化了模型捕捉训练数据完整多样性的程度。例如,具有高精确率但低召回率的模型可能会生成完美的猫图像,但只会生成波斯猫,而缺少其他品种。这些指标通常依赖于特征空间中的聚类(例如,使用 k 最近邻)来确定生成的样本是否位于真实数据分布中。此外,像 LPIPS (Learned Perceptual Image Patch Similarity) 这样的感知指标使用深度特征比较生成图像和真实图像的相似性,从而提供视觉保真度的细粒度视图。 LPIPS 对于像图像到图像的转换这样的任务特别有用,在这种任务中,结构一致性很重要。
最后,效率指标 对于实际部署至关重要。这些指标包括采样速度(例如,所需的去噪步骤数)和计算成本(例如,GPU 内存使用情况)。例如,扩散模型可能获得出色的 FID 分数,但需要 1,000 个去噪步骤,这使得它不适合实时应用程序。开发人员经常跟踪质量和速度之间的权衡,例如通过蒸馏技术在保持性能的同时减少步骤。还监测诸如训练稳定性(例如,损失收敛模式)和对超参数的鲁棒性(例如,对噪声时间表的敏感性)等指标。虽然不是输出质量的直接衡量标准,但这些实际考虑因素决定了扩散模型是否可以有效地部署在生产环境中。