视觉-语言模型 (VLM) 通过利用跨模态推理和训练期间学习到的概率关联来处理模糊的图像或文本数据。这些模型,例如 CLIP 或 Flamingo,使用对齐两种模态特征的架构一起处理视觉和文本输入。当面临模糊性时——例如图像中不清晰的物体或模糊的语言——VLM 依靠上下文线索和统计模式来推断合理解释。例如,如果图像包含模糊的形状,模型可能会交叉引用伴随的文本(例如,提及“狗”的标题)来解决不确定性。反之,像“树枝上的鸟”这样模糊的文本提示可能会使模型优先考虑常见的视觉模式(例如,树上的知更鸟),而不是不太可能的情景(例如,金属杆上的企鹅)。
处理模糊性的关键机制是使用注意力层,它动态地权衡图像区域和文本标记之间的关系。例如,如果标题写着“运动员击球”,但图像显示网球运动员和足球运动员,模型可能会侧重于球拍或球门柱等视觉线索来确定运动类型。同样,文本中模糊的代词(例如,“杯子在书旁边。捡起它。”中的“它”)需要模型通过分析图像中的空间关系来推断指代对象。在包含多样化示例的大规模数据集上进行训练有助于 VLM 以概率方式学习这些关联。例如,如果文本中出现“bank”,模型可能会根据视觉上下文将其与户外场景中的河岸或城市环境中的金融建筑相关联。
为了减少错误,VLM 通常会生成多种可能的输出或置信度分数。例如,当被要求描述一个阴影人物的图像时,模型可能会输出具有不同概率的 ["人", "动物", “雕像”]。一些实现使用束搜索来探索替代解释,而另一些则采用校准技术来标记低置信度的预测。开发者可以通过在特定领域的数据上进行微调来提高鲁棒性——例如,训练医疗 VLM 通过将放射学报告与图像区域相关联来区分模糊的 X 射线发现。然而,仍然存在局限性:VLM 仍然可能传播训练数据中的偏见(例如,认为“医生”指的是穿白大褂的男性),或者难以处理缺乏清晰上下文信号的罕见模糊情况。理解这些权衡有助于开发者设计回退机制,例如在超过模糊阈值时提示用户进行澄清。