要利用 TriviaQA 或 Natural Questions 等 QA 数据集来评估检索增强生成 (RAG) 系统,您需要将它们的数据结构与检索和生成管道对齐。这些数据集通常包括问题、答案和支持上下文(例如,维基百科段落)。对于 RAG 评估,目标是测试检索器查找相关文档的能力和生成器从这些文档中生成准确答案的能力。例如,TriviaQA 提供问题-答案对以及证据段落,这些段落可以用作检索相关性的基础事实(例如,检查检索器是否找到了这些段落)和答案正确性(例如,验证生成器是否从检索到的文本中生成了正确的答案)。但是,原始数据集可能无法直接映射到检索环境,因为它们假设可以访问预先提取的证据,而不是大规模语料库。
需要进行修改才能使这些数据集适应检索环境。首先,您需要构建或对齐一个与数据集范围相匹配的文档语料库。例如,如果使用 Natural Questions(包含基于维基百科的答案),您可以将维基百科转储作为检索语料库进行索引。接下来,您必须确保数据集的基础事实答案可以追溯到语料库中的特定文档。这可能涉及预处理语料库以包括文档 ID 或元数据,将答案链接到其来源段落。此外,原始数据集通常包括多个正确答案或释义版本,因此您可能需要规范化答案或扩展基本事实匹配以考虑变体。例如,TriviaQA 的答案可能包括别名或应在评估期间被视为有效的替代措辞。
一个实际的例子是重新格式化数据集以分离检索和生成评估。对于检索,您可以衡量诸如 recall@k(基本事实段落是否位于前 k 个检索到的文档中)或平均倒数排名 (MRR) 等指标。对于生成,您可以使用生成答案和基本事实之间的精确匹配或 F1 分数。例如,对于 Natural Questions,您可以首先在维基百科索引上运行检索器,为每个问题查找候选段落,然后使用生成器生成答案。如果原始数据集包含简短答案(例如,“巴拉克·奥巴马”),您可能需要过滤语料库以确保这些实体存在于索引文档中。如果语料库与数据集的原始来源不同(例如,使用较新的维基百科转储),您可能需要更新或验证答案相关性,以避免因信息过时而导致的误报。这些步骤确保数据集有效地测试 RAG 设置中的检索准确性和答案质量。