扩散模型通常使用既定数据集进行评估,以测试它们生成高质量、多样化输出的能力。常用的数据集分为三类:通用图像数据集、文本条件数据集以及专用或高分辨率数据集。每种数据集都有其独特的评估目的,从衡量基本的生成性能到测试条件合成能力和可扩展性。
首先,通用图像数据集如 CIFAR-10、ImageNet 和 LSUN 被广泛使用。CIFAR-10 包含 60,000 张 32x32 像素的图像,分为 10 个类别,是一种轻量级选择,适用于快速实验。其低分辨率使其在测试架构思想或训练效率方面非常实用。ImageNet 包含 130 万张更高分辨率的图像(训练时通常缩放到 256x256),分为 1,000 个类别,用于评估模型处理多样性和规模的能力。LSUN(大规模场景理解)专注于特定的场景类别,如卧室或教堂,测试模型生成结构化、复杂布局的能力。这些数据集与 Fréchet Inception Distance (FID) 或 Inception Score (IS) 等指标配对使用,这些指标通过预训练分类器将生成的图像与真实数据进行比较。
对于文本到图像的任务,MS-COCO 和 LAION-5B 的子集是常见的基准。MS-COCO 包含 330,000 张带有人工标注标题的图像,可以评估模型将生成的图像与文本提示对齐的能力。LAION-5B 是一个包含 50 亿个图像-文本对的网络爬取数据集,常用于训练大型模型(如 Stable Diffusion),但为了降低计算成本,也会使用较小的精选子集(例如 LAION-Aesthetics)进行评估。这些数据集测试模型处理多样化提示和生成语义一致输出的能力。评估通常涉及 CLIP Score 等指标,该指标使用多模态嵌入模型衡量生成的图像与输入文本之间的对齐程度。
最后,高分辨率或特定领域的数据集如 FFHQ (Flickr-Faces-HQ) 和 CelebA-HQ 用于测试可扩展性和专业化能力。FFHQ 包含 70,000 张 1024x1024 分辨率的高质量人脸图像,挑战模型生成头发和皮肤纹理等精细细节。CelebA-HQ 是原始 CelebA 数据集的改进版本,包含 30,000 张对齐的人脸图像,常用于属性条件生成等任务(例如,添加眼镜或改变发色)。这些数据集促使模型处理更大的尺寸和领域特定特征。这里的评估可能侧重于感知质量(通过用户研究)或特定任务指标,例如在编辑过程中保留请求属性的准确性。总而言之,这些数据集为跨任务和复杂度的扩散模型评估提供了全面的框架。