视觉-语言模型(VLM)通过在视觉和文本数据上联合训练,从而实现跨模态迁移学习,使得从一种模态学到的知识能够增强在另一种模态上的性能。这些模型,例如 CLIP 或 Flamingo,使用将视觉和语言特征对齐到共享嵌入空间的架构。例如,CLIP 在图像-文本对上进行训练,以预测哪个字幕与图像匹配,创建一个统一的表示,其中图像和文本中相似的概念被映射得更近。这种对齐方式使开发者能够利用基于文本的知识来改进图像相关任务(例如,使用文本提示进行零样本图像分类),或使用视觉特征来完善语言任务(例如,生成感知图像的字幕)。
一个关键优势在于能够利用有限的数据对 VLM 进行下游任务的微调。由于 VLM 在大规模数据集上进行预训练,它们捕捉到了模态之间的广泛关系,这可以应用于特定应用。例如,一个标记图像稀缺的医学成像系统可以使用在通用图像-文本对上预训练的 VLM,并使用配对的放射报告和 X 光片对其进行微调。该模型将其对文本描述的理解迁移到图像诊断中,即使只有极少的医学数据也能提高诊断效果。同样,在视频字幕生成中,在视频-文本对上训练的 VLM 可以通过将视觉-时间特征迁移到语言生成来生成准确的描述。
VLM 还提高了在某一模态不完整或有噪声的跨模态场景中的鲁棒性。例如,在自动驾驶中,VLM 可以利用从文本中学到的上下文知识(例如,训练数据中将“湿滑路面”与下雨关联起来)从摄像头图像中推断路况。反之,在辅助工具中,VLM 利用其语言理解能力为图像生成 alt-text(替代文本),即使视觉细节不明确。通过统一模态,VLM 减少了对特定任务架构的需求,并实现了灵活适应,使其对于构建需要视觉和语言无缝交互的系统的开发者来说非常实用。