视觉语言模型 (VLM) 通过监督学习、自监督预训练和半监督技术的结合来处理有标签和无标签数据。有标签数据,例如与文本描述配对的图像,用于训练模型对齐视觉和文本表示。例如,VLM 可能会通过最小化图像和文本嵌入之间的差异,学习将一张狗的照片与“一只棕色的狗在公园里奔跑”的文字描述关联起来。这个监督阶段通常依赖于像 COCO 或 Flickr30K 这样的数据集,其中明确的标注为图像-文本匹配或分类等任务提供了真实标签。在此阶段,模型使用对比损失或交叉熵目标来完善其对模态之间关系的理解。
无标签数据,例如没有直接配对的原始图像或文本,通过自监督预训练来利用。掩码语言建模等技术(改编自纯文本模型)被扩展到两种模态。例如,模型可能会掩盖图像的部分(例如,像素区域)或描述中的词语,并学习预测缺失的元素。CLIP 是一个广为人知的 VLM,它对网络爬取的带有噪声的图像-文本对使用对比方法,将这些对视为弱标签。虽然这些对不是手动整理的,但模型仍然假设图像及其附带文本之间存在松散的关联。真正不成对的数据,例如独立的图像或不相关的文本语料库,也可以通过生成任务来使用,例如从合成描述中重建图像或反之,尽管这在实践中不太常见。
半监督方法通过结合有限的有标签数据和丰富的无标签样本来弥合差距。例如,一个在网络数据(带有噪声标签)上预训练的 VLM 可能会在一个更小、高质量的有标签数据集上进行微调,以完成特定任务,例如视觉问答。伪标签是另一种方法:模型为无标签数据生成标签(例如,预测图像的描述),并使用这些推断出的对进行重新训练。一致性正则化——对输入进行轻微扰动并确保预测一致——也被用于提高模型的鲁棒性。这些策略使得 VLM 能够有效地扩展,平衡有标签数据的精确性与无标签数据的广度,同时避免对少量标注数据集过度拟合。