零样本学习 (ZSL) 使视觉问答 (VQA) 模型能够回答关于它们未明确训练过的对象或概念的问题。在传统的 VQA 中,模型在包含特定图像-问题-答案三元组的数据集上进行训练,从而限制了它们处理新场景的能力。 ZSL 通过利用已知和未知概念之间的语义关系来解决这个问题。例如,一个基于 ZSL 的 VQA 模型在猫和狗的图像上训练后,如果它通过共享嵌入或辅助数据理解更广泛的类别(如“动物”)或属性(如“皮毛”),仍然可以回答关于袋鼠的问题。
为了在 VQA 中实现 ZSL,模型通常使用预训练的视觉-语言框架,如 CLIP 或 ViLBERT,它们将图像和文本映射到共享语义空间中。这些模型学习在训练期间将视觉特征与文本描述对齐,从而允许它们通过将新输入与现有知识进行比较来泛化到看不见的类。例如,如果一个模型被问到“袋鼠是什么颜色?”,但从未在训练中见过袋鼠,它仍然可以通过将图像的视觉特征(例如,棕色皮毛)与从其他动物学习到的“棕色”文本概念进行匹配来推断答案。这种方法避免了需要为每个可能的对象或问题类型提供详尽的标记数据。
挑战包括处理视觉和文本数据之间模糊或复杂的关系。例如,如果“斑马”和“马”的嵌入在语义空间中太相似,模型可能会混淆它们。开发人员通常通过整合外部知识图谱或改进对齐过程来缓解这种情况。像 OpenAI 的 CLIP API 或 Hugging Face 的 Transformers 库这样的工具提供了使用 ZSL 进行 VQA 的便捷方法,让开发人员可以在保留零样本能力的同时,在自定义数据集上微调预训练模型。通过专注于鲁棒的特征对齐并利用可扩展的架构,ZSL 使 VQA 系统更加灵活,并能适应现实世界的场景。