为检索增强生成 (RAG) 系统准备专门的评估数据集至关重要,因为它允许开发人员客观地衡量系统检索相关信息和生成准确、上下文感知响应的能力。如果没有定制的数据集,就很难识别检索准确性、答案质量或处理边缘情况方面的弱点。例如,如果未在包含此类场景的数据集上进行测试,用于医学问答的 RAG 系统可能会检索过时的指南或难以处理模棱两可的症状。 专门的数据集可确保系统在与训练数据分开的现实条件下进行评估,从而降低过度拟合的风险,并为迭代改进提供可靠的基准。
一个健壮的评估数据集应包括三个关键组成部分。首先,多样化的输入查询反映了真实世界的用例,例如事实性问题(“什么导致通货膨胀?”)、模糊请求(“解释气候变化”)和多跳查询(“2008 年金融危机如何影响可再生能源的采用?”)。 其次,与每个查询对齐的真实上下文文档,确保检索组件可以访问准确的源材料。这些文档应包括相关条目和故意不相关或过时的条目,以测试系统的过滤能力。第三,参考答案作为判断生成输出的黄金标准。例如,像“什么是 CRISPR?”这样的查询应该映射到从权威来源得出的经过验证的答案,并带有突出显示系统应复制的关键事实或推理步骤的注释。
此外,数据集应包含否定示例,其中提供的上下文中不存在正确答案(例如,“2024 年火星的人口是多少?”),以测试系统如何处理不确定性。 检索精确度(检索到的相关文档的百分比)、答案正确性(与参考答案的一致性)和响应连贯性(逻辑流程)等指标应被跟踪。 对于实际实施,开发人员可能会使用诸如 Natural Questions 之类的公共基准,或者通过整理特定领域的查询和上下文对来创建自定义数据集。 根据此数据集迭代测试和改进系统可确保它能够很好地泛化到训练示例之外,并在生产中可靠地运行。