零样本学习 (ZSL) 模型使用旨在测试其泛化到未见类别的能力的基准进行评估。 常见的数据集包括 CUB-200-2011(Caltech-UCSD Birds)、SUN(场景理解)和 AWA2(Animals with Attributes 2)。这些数据集将类别分为“已见”(在训练期间使用)和“未见”(仅在测试期间使用)。例如,CUB-200-2011 包含 200 种鸟类,其中 150 种已见,50 种未见,并提供详细的属性注释(例如,翅膀颜色)以将视觉特征链接到类别描述。AWA2 包含 50 个动物类别(40 个已见,10 个未见),每个类别有 85 个属性,例如栖息地或毛皮纹理。SUN 涵盖 717 个场景类别(645 个已见,72 个未见),侧重于上下文关系。 这些数据集强调细粒度的区分,使得模型在不过度拟合训练数据的情况下难以泛化。
评估协议各不相同,但大多数基准都遵循两种设置:传统 ZSL(仅在未见类别上进行测试)和广义 ZSL (GZSL)(在已见和未见类别上进行测试)。传统的 ZSL 使用未见类别的 top-1 准确率,而 GZSL 使用已见和未见准确率的调和平均值来平衡性能。例如,在 AWA2 中,一个模型在传统 ZSL 中可能在未见类别上达到 70% 的准确率,但在 GZSL 中由于对已见类别的偏向而降至 40%。Xian 等人引入的标准化分割通过确保未见类别不包含在训练、验证或超参数调整中来防止数据泄露。这种标准化允许跨方法进行公平比较。
除了图像分类之外,像 Zero-Shot ImageNet (ZS-IMNET) 这样的基准通过使用 ImageNet 类别的子集(例如,1,000 个已见和 20,000 个未见)来测试可扩展性。基于文本的 ZSL 任务,如 CLIP 风格的评估,使用文本提示(例如,“一张斑马的照片”)来对齐图像和文本描述。像 Word2Vec 或 GloVe 嵌入这样的语义表示通常用于编码 NLP 相关的 ZSL 任务中的类关系(例如,零样本文本分类)。这些基准强调模型利用辅助信息(属性、文本)来桥接已见和未见类别的能力,确保在新类别频繁出现的真实场景中的鲁棒性。