视觉语言模型(VLM)中的零样本学习允许这些模型在不针对特定任务进行带标签数据明确训练的情况下执行任务。相反,它们利用在大型图像和文本配对数据集上训练获得的先验知识,泛化到未曾见过的场景。例如,一个在通用图像-文本对上训练的 VLM,即使从未见过带标签的例子,只需理解对鸟类的文本描述,就能对“几维鸟”的图片进行分类。这种能力减少了对昂贵的、特定任务数据收集和微调的需求,使 VLM 能够高度适应新应用。
VLM 中零样本学习的一个关键技术方面是它们能够在共享的嵌入空间中对齐视觉和文本表示。像 CLIP(对比语言-图像预训练)这样的模型通过在数百万图像-文本对上进行训练来实现这一点,学习将图像与其相应的描述相关联。在推理过程中,模型将输入图像的嵌入与文本提示的嵌入(例如,“一张几维鸟的照片” 对比 “一张企鹅的照片”)进行比较,以预测最可能的匹配项。这种方法可以在没有特定任务训练的情况下实现图像分类、目标检测或视觉问答等任务。例如,开发者可以使用 CLIP 通过检查与“暴力场景”或“露骨内容”等文本提示的相似性来过滤用户上传图片中的不当内容,即使模型并未明确训练用于内容审核。
虽然功能强大,但零样本学习也有局限性。性能很大程度上取决于预训练数据的多样性和质量。如果 VLM 在训练期间未接触到相关概念(例如,X 光片中罕见的医疗状况),其零样本精度可能会下降。此外,训练数据中的偏差可能会传播到下游任务。尽管存在这些挑战,VLM 中的零样本学习对于快速原型开发、扩展带标签数据有限的应用以及实现跨领域任务都具有重要价值。例如,开发人员构建野生动物监测应用时,可以使用预训练的 VLM 通过文本描述识别相机捕捉到的图像中的物种,从而绕过收集和标注数千张小众动物照片的需求。随着 VLM 的不断改进,零样本能力将继续扩展其实用价值。