多模态搜索和检索增强生成 (RAG) 的基准测试可帮助开发人员评估系统处理组合多种数据类型(文本、图像、音频)并将检索与生成模型集成的任务的效果。这些基准测试衡量从不同来源检索相关信息并生成准确、上下文感知输出的性能。虽然没有一个基准测试可以涵盖所有场景,但有几种已建立的选项侧重于多模态和 RAG 工作流程的特定方面。
对于多模态搜索,像 OK-VQA(外部知识视觉问题解答)这样的数据集测试了通过分析图像和外部知识来回答问题的系统。 例如,像“照片中显示的栖息地原产于什么动物?”这样的问题需要将视觉数据(例如,热带稀树草原)与事实知识(例如,狮子)联系起来。 另一个基准测试 WebQA 使用文本和图像来评估跨模态检索,其中系统必须根据另一种模态的查询找到相关的图像或文本片段。 COCO Captions 和 Flickr30k 数据集也用于测试图像-文本对齐,衡量模型将描述与视觉效果匹配的程度。 这些基准测试通常使用诸如 recall@k(正确结果出现在前 k 个检索项目中的频率)或多模态相似性得分之类的指标。
对于 RAG,像 Natural Questions (NQ) 和 HotpotQA 这样的基准测试侧重于从文本文档中检索和合成信息。 虽然这些都是纯文本的,但像 MultiModalQA 这样的扩展结合了表格、文本和图像来测试处理混合数据类型的 RAG 系统。 例如,回答“此图表中显示的城市的人口是多少?”需要从表格中提取数据,理解图表图像,并生成连贯的答案。 RAG 的指标包括答案准确率、检索精度(提取的相关文档的百分比)和生成质量(例如,文本输出的 BLEU 或 ROUGE 得分)。 像 KILT(知识密集型语言任务)这样的挑战统一了事实核查和对话等任务,以测试跨领域的端到端 RAG 性能。
开发人员在选择基准测试时还应考虑实际因素。 对于多模态搜索,处理大型图像或视频数据集时,延迟和可扩展性很重要。 对于 RAG,平衡检索广度(覆盖不同的来源)与生成连贯性至关重要。 像 BEIR(基准测试信息检索系统)这样的工具提供了模块化框架来评估检索组件,可以将其调整用于多模态用例。 虽然现有的基准测试很有用,但许多实际应用需要自定义评估来满足特定领域的需求,例如带有诊断报告的医学成像或结合文本和视觉效果的电子商务产品搜索。