视觉-语言模型(VLM)通过神经网络联合处理视觉和文本数据来学习图像与文本之间的关联。这些模型通常使用两个主要组件:一个图像编码器(例如 CNN 或 Vision Transformer)和一个文本编码器(例如基于 Transformer 的模型)。在训练过程中,将成对的图像及其对应的文本描述输入到模型中。编码器将这些输入转换为高维向量表示(嵌入),模型调整其参数,使匹配的图像-文本对的嵌入在共享语义空间中更接近。例如,一张红色苹果的图像和文本“一个成熟的红色苹果”将被映射到这个空间中的附近点,而无关的对(例如,同一张苹果图像与“一辆蓝色汽车”配对)则会被推开。
学习过程严重依赖于对比损失函数,该函数衡量图像和文本嵌入之间的相似性。例如,CLIP 等模型使用对比目标,最大化正确对的相似性,最小化不匹配对的相似性。为了捕捉细粒度关系,VLM 通常采用注意力机制,识别图像的相关部分(例如,狗的脸)并将其与特定词语(例如,“金毛寻回犬”)连接起来。COCO 或 LAION-5B 等训练数据集提供了数百万对图像-文本对,使模型能够学习多种多样的关联,例如将视觉模式(纹理、形状)与描述性词语关联起来,或推断上下文关系(例如,识别标题中的“烘焙”对应于图像中的烤箱)。
一旦训练完成,VLM 可以通过比较跨模态的嵌入来执行图像字幕生成或文本到图像检索等任务。例如,生成字幕涉及将图像嵌入解码为一系列最符合视觉内容的文本标记。在检索中,模型可能会根据图像与文本查询(例如“山顶日落”)的相似性对图像进行排序。一些模型还在推理过程中使用跨模态注意力层来融合视觉和文本特征,从而实现更深度的交互——例如回答有关特定图像区域的问题。开发者可以在特定领域的数据(例如,带有报告的医学图像)上对预训练的 VLM 进行微调,以使这些关联适应特定用例。核心思想是,嵌入空间中的对齐使模型能够将关系泛化到训练数据之外。