为了评估检索增强生成 (RAG) 系统中的检索性能,通常使用几个标准基准和数据集。这些基准和数据集侧重于测试系统从大型语料库中检索相关文档或段落的有效性,这对准确生成答案至关重要。开放域问答 (QA) 任务是一个主要应用,Natural Questions (NQ)、WebQuestions (WebQ)、TriviaQA、MS MARCO 和 HotpotQA 等数据集被广泛采用。每个数据集在规模、问题复杂性和检索要求方面各不相同,使开发人员能够测试检索质量的不同方面。
Natural Questions (NQ) 和 WebQuestions (WebQ) 是两个基础基准。 NQ 包含来自 Google 搜索日志的真实用户查询,并与来自 Wikipedia 的人工注释答案配对。检索系统根据它们从包含 1600 万个文档的 Wikipedia 语料库中查找短答案或长答案的能力进行测试。 WebQuestions 的规模较小,问题来源于 Google Suggest API,答案与 Freebase 实体相关联。 这两个数据集都通过 recall@k(正确的文档是否在排名前 *k* 的结果中)和 exact match (EM)(答案的正确性)等指标来衡量检索准确性。 TriviaQA 增加了复杂性,其中包含需要来自 Wikipedia 或网络源的多段落证据的琐事风格问题。 这些数据集强调了系统处理各种查询类型和大规模文档搜索的能力。
除了特定于 QA 的基准之外,MS MARCO 和 BEIR 也被广泛使用。 MS MARCO (Microsoft Machine Reading Comprehension) 包括真实的 Bing 搜索查询,并侧重于检索用于回答的段落。它的大规模语料库(880 万个段落)测试了可扩展性。 BEIR (Benchmarking IR) 是一个异构基准,涵盖跨事实核查和引文预测等任务的 18 个数据集,使其可用于评估检索的稳健性。 HotpotQA 引入了多跳推理,在这种推理中,检索相互关联的文档是必要的。 例如,回答“谁创立了收购 DeepMind 的公司?” 需要检索 Google 对 DeepMind 的收购以及 Google 的创立细节。 这些基准共同测试检索系统的精度、可扩展性和推理能力,为开发人员提供明确的指标来优化性能。