衡量视觉-语言模型 (VLM) 在图像标注任务中的性能涉及自动化指标和人工评估的结合。自动化指标被广泛使用,因为它们提供可扩展、可重复的分数,但通常需要人工判断来补充,以考虑创造性和事实准确性等细微差别。下面,我们分解了评估标注性能的关键方法和注意事项。
自动化指标 常用的自动化标注指标包括 BLEU、METEOR、CIDEr 和 SPICE。BLEU 通过比较生成的标注与参考文本之间的 N-gram 重叠来衡量,侧重于精确率。例如,如果模型生成“a dog running in a park”,而参考文本是“a brown dog plays on grass”,BLEU 会惩罚词语上的差异,即使意思相似。METEOR 通过整合同义词和词干提取来解决这个问题,提高了语义对齐。CIDEr 专为标注设计,使用 TF-IDF 加权来强调在参考文本中频繁出现但在普通文本中罕见的 N-gram,突出了信息量大的短语。SPICE 通过将标注解析为场景图(例如,对象、属性和关系)并将其与参考图进行比较来评估语义正确性。例如,如果一个标注描述了“a man riding a horse”,SPICE 会检查实体及其关系是否与真实情况匹配。
人工评估 仅靠自动化指标无法完全捕捉人类感知的质量。人工评估者通常根据流利度(语法正确性)、相关性(与图像的对齐)和细节(描述的完整性)等标准对标注进行评分。例如,像“a red bird perched on a branch”这样的标注如果与图像匹配可能会得分很高,而“a bird in a tree”则可能因模糊而被扣分。亚马逊 Mechanical Turk 等众包平台常用于此目的,评估者使用 Likert 量表(例如,1-5 分)对标注进行评分。然而,这种方法成本高且耗时,不适用于大规模评估。混合方法,例如在人工审核前使用自动化指标过滤掉较差的候选标注,可以平衡效率和准确性。
新兴方法与上下文 最近的进展利用预训练模型(如 BERT 或 CLIP)来评估标注质量。例如,CLIPScore 通过将标注和图像编码到共享的嵌入空间并计算它们的余弦相似度来衡量标注与图像的对齐程度。这绕过了对参考文本的需求,这在缺乏真实标注时非常有用。特定于任务的调整也很重要:在医学影像领域,指标可能会优先考虑解剖学准确性而非创造力。此外,像 Self-CIDEr 这样的多样性指标评估模型是否为同一图像生成不同的标注,避免重复。结合这些方法——例如使用 CIDEr 衡量一致性、SPICE 衡量语义以及 CLIPScore 衡量图像对齐——可以更全面地评估 VLM 的标注能力。