有几个基准测试用于评估语义搜索系统,重点关注相关性排序、查询-文档匹配和跨领域泛化等任务。常用的基准测试包括 MS MARCO、BEIR、TREC 深度学习赛道、语义文本相似度 (STS) 以及特定领域的数据集,如 Natural Questions (NQ) 或 HotpotQA。这些基准测试模型理解查询、检索上下文相关结果以及处理不同数据类型(例如,短段落、长文档或多跳推理)的能力。例如,MS MARCO 使用真实的 Bing 搜索查询和人工标注的段落,而 BEIR 聚合了 15 个以上的数据集来衡量零样本泛化能力。每个基准测试都定义了特定的评估指标和任务,例如排名准确性或相似度评分,以量化性能。
MS MARCO 是一个被广泛采用的大规模语义搜索基准测试,重点关注段落排序和问答。它使用平均倒数排名 (MRR@10) 来衡量系统在排名前 10 的结果中放置正确答案的能力。另一方面,BEIR 使用 nDCG@10 等指标评估跨不同领域(例如,生物医学、法律)的模型,测试在一种数据集上训练的模型是否可以推广到其他数据集。TREC 深度学习赛道提供结构化评估活动,其中包含针对复杂查询的文档检索等任务,通常使用以精确度为中心的指标。对于基于相似度的任务,STS 基准测试(如 STS-B 或 STS-17)使用 Pearson 相关性来对模型与人工评分的文本相似度的一致程度进行评分。Natural Questions 等数据集侧重于开放领域 QA,其中系统必须从 Wikipedia 段落中检索准确的答案,并以精确匹配准确度来衡量。HotpotQA 通过需要跨多个文档进行多步推理来增加复杂性,从而测试答案的正确性和支持证据检索。
选择基准测试时,开发人员应考虑其用例的需求。对于通用搜索引擎,BEIR 的多数据集方法有助于评估跨领域的稳健性。如果目标是优化真实的 Web 搜索,则 MS MARCO 的大规模查询-段落对更具相关性。特定领域的应用程序(例如,医学或法律搜索)可能需要自定义数据集或子集,例如 BioASQ 或 LegalBench。任务类型也很重要:STS 适用于衡量相似度的应用程序(例如,重复检测),而 HotpotQA 更适合需要通过多跳推理来解释的系统。此外,评估指标应与业务目标保持一致——nDCG 优先考虑排名质量,而 MRR 侧重于顶部结果的准确性。最后,计算约束也很重要;诸如 MS MARCO 之类的大型基准测试需要大量的基础设施,而较小的数据集(例如,STS)可以实现快速迭代。选择正确的基准测试可确保对模型在实际场景中的优势和劣势进行有意义的了解。