衡量视觉-语言模型(VLM)的解释性,需要评估人类理解其预测背后推理过程的程度。这通常结合了模型行为可视化、跨模态对齐评估以及决策一致性量化等技术。由于 VLM 同时处理图像和文本,解释性侧重于追踪视觉和文本特征如何交互以生成诸如图像描述或答案之类的输出。
一种方法是分析注意力机制或显著性图,以识别模型优先处理图像或文本的哪些部分。例如,Grad-CAM 等工具可以突出影响图像描述的图像区域,比如在生成“一只棕色的狗”时突出狗的脸。类似地,CLIP 等模型中的注意力层可以展示特定单词如何与视觉区域相关联。探测任务也有帮助:通过遮蔽不相关的图像区域后测试模型是否能正确回答“车是什么颜色?”,来验证模型是否使用了逻辑视觉线索。这些方法揭示了模型的关注点是否与人类直觉一致,这是解释性的一个关键方面。
另一层是评估跨模态一致性。这里常用人工评估,标注者评估解释(例如,“猫在沙发上”)与图像的匹配程度。扰动测试进一步验证这一点:改变图像(例如,移除沙发),然后检查模型的输出是否相应改变。例如,如果 VLM 在沙发被移除后仍然提及沙发,这表明其推理存在缺陷。LIME 或 SHAP 等工具可以估算哪些特征驱动决策,帮助开发者发现视觉和文本推理路径之间的不一致之处。
最后,定量指标提供了客观的基准。指向游戏准确率衡量模型突出显示的图像区域与所描述对象匹配的频率(例如,正确找到篮子里的“苹果”)。特定任务的基准,如 VQA 准确率(用于问答)或 CIDEr 分数(用于图像描述),通过测试输出在上下文中是否合理来间接反映解释性。然而,这些应补充而非取代定性分析。例如,高 VQA 分数并不能保证模型使用了逻辑推理,因此将指标与视觉检查相结合可以确保对解释性进行全面评估。