在评估视觉-语言模型(VLMs)时,准确性和相关性分别扮演着不同但相互关联的角色。准确性衡量模型的输出与真实数据或客观事实的契合程度。例如,如果一个 VLM 将一张狗的图片描述为“一只猫”,这就是一个准确性错误。精确率、召回率或特定任务基准(如图像标注的 BLEU 分数)等指标通常用于量化准确性。然而,相关性评估输出是否能有意义地回应用户的查询或上下文,即使它并非严格基于事实。例如,如果用户要求就一张公园图片创作一个富有创意的故事,一个相关的回应可能会包含关于孩子们玩耍的合理细节,即使这些细节并未明确可见。准确性优先考虑正确性,而相关性则侧重于与上下文的契合度和实用性。
准确性和相关性之间的平衡取决于具体的应用场景。在高风险领域,如医学影像或自主系统,准确性至关重要。分析 X 光片的 VLM 必须正确识别异常,因为错误可能导致误诊。在此类场景下,严格的准确性指标(如 F1 分数)在评估中占据主导地位。相反,在创意或辅助工具中,相关性往往更重要。例如,一个使用 VLM 从草图生成标志创意的设计应用,应优先考虑多样化、符合上下文的概念,而非像素级的精确性。类似地,处理开放式查询的聊天机器人可能需要推断用户意图并提供相关的建议,即使某些细节是近似的。开发者必须根据用户需求和潜在风险来决定优先考虑哪个方面。
评估这两个指标需要采取量身定制的方法。准确性通常使用标注数据集(如用于目标检测的 COCO)或自动化指标(如用于文本-图像对齐的 CLIPScore)来衡量。然而,相关性更为主观,往往需要人工评估或专门的基准测试,如 OK-VQA(测试上下文推理)。一个实际挑战是如何处理准确性和相关性冲突的场景。例如,当图片只显示一个人靠近水时,一个 VLM 可能会生成标题“一个人在池塘里喂鸭子”。虽然这个标题具有相关性,但它是不准确的。为了解决这个问题,开发者可以使用混合评估框架,将自动化准确性检查与用户反馈循环相结合来评估相关性。找到正确的平衡点可以确保模型同时满足技术和实际需求。