视觉-语言模型(VLM)使用各种结合视觉和文本信息的数据集进行训练,以实现跨模态的理解和生成。使用的数据主要分为三大类:配对的图像-文本数据、带有标注的结构化数据集和网络规模的多模态内容。以下是详细分类:
配对的图像-文本数据 这是 VLM 的核心训练材料。它由与描述性文本(如标题或标签)配对的图像组成。例如,像 COCO(Common Objects in Context)这样的数据集提供带有多个标题的图像,这些标题描述了对象、动作和上下文[7]。类似地,Flickr30k 包含带有用户生成标题的用户上传照片。这些数据集帮助模型学习视觉元素(例如,奔跑的狗)及其文本描述之间的关联。一些模型还使用合成数据,其中图像与文本以编程方式结合(例如,渲染场景带有叠加标签)。
结构化标注数据集 这些数据集包含除简单标题之外的细粒度标注,例如对象边界框、分割掩码或属性标签。例如,Visual Genome 将图像链接到描述对象、关系和属性的详细场景图[7]。在此类数据上训练的模型可以更好地理解空间关系(例如,“一只猫坐在椅子上”)或组合语义(例如,“一辆红车在树旁边”)。医学 VLM 可能会使用带诊断报告的标注 X 射线图来学习特定领域的关联。
网络规模的多模态内容 从互联网上抓取的大规模数据——例如社交媒体帖子、带有嵌入图像的网页以及视频字幕——提供了有噪音但多样化的训练材料。像 CLIP 这样的工具使用来自公共网站的数亿图像-文本对来学习广泛的视觉-文本对齐[7]。虽然这些数据不够精选,但其庞大的体量有助于模型泛化到开放世界场景。然而,这需要预处理以过滤掉不相关或低质量的内容。
开发者应注意数据多样性和平衡性至关重要。例如,过度代表特定对象类别(例如,汽车数据集中的“汽车”)可能会使模型输出产生偏差。此外,像分词(针对文本)和归一化(针对图像)这样的预处理步骤确保了跨模态的一致性。通过结合这些数据类型,VLM 实现了稳健的跨模态推理能力,从而支持诸如视觉问答或自动化内容审核等应用。