评估多语言视觉-语言模型(VLM)带来了独特的挑战,原因在于视觉和文本数据在不同语言之间的相互作用。这些挑战源于数据限制、语言复杂性以及衡量跨文化理解的难度。解决这些问题需要仔细考虑模型如何在不同的语言环境中处理和对齐多模态输入。
一个主要挑战是多语言训练和评估数据的可用性和质量不均衡。虽然 COCO 或 Visual Genome 等以英语为中心的数据集质量很高,但其他语言的同等资源却稀缺或不完整。例如,低资源语言(如斯瓦希里语或孟加拉语)中的图像-文本对通常缺乏足够的数量和多样性,导致评估存在偏差。即使经过翻译,习语或文化特定参考等细微之处也可能无法准确传达。标注者还必须考虑地域差异——例如,“football”一词在英式英语中可能指足球,但在美式语境中则指美式橄榄球。这些差距使得模型难以确保真正理解跨语言的概念,而不是依赖于肤浅的翻译。
另一个问题是如何设计能够公平评估跨语言性能的评估指标。传统的指标,如 BLEU 或 CIDEr,专为单语环境设计,由于语言之间的结构差异,难以进行多语言比较。例如,一个正确的德语描述可能使用与英语对应描述不同的词序,从而不公平地惩罚模型。人工评估虽然更可靠,但由于需要多语言专家,在大规模应用中变得不切实际。此外,跨语言检索任务(例如,使用西班牙语查询找到匹配泰语字幕的图像)需要测试双向对齐能力,而现有基准通常没有系统地涵盖这一点。如果没有标准化的多语言基准,模型之间的比较就会变得不一致。
最后,多语言 VLM 有可能继承其训练数据中的偏见,并且无法跨文化泛化。主要在以西方为中心的图像和文本上训练的模型可能会误解其他地区的符号或习俗。例如,由于训练数据中的偏见,模型可能会错误地将一件印度传统服装标记为“戏服”。语言结构差异,例如从右到左书写的文字(阿拉伯语)或黏着语形态(土耳其语),也可能导致处理错误。测试这些模型需要具有文化多样性的测试用例,并对代表性不足的语言中的边缘情况进行压力测试。如果不解决这些差距,评估可能会夸大模型的多语言能力,掩盖其在实际使用中的关键弱点。