要确保测试数据集确实需要检索增强,请关注三个关键领域:数据集设计、评估指标和人工验证。首先,测试数据必须包含本质上需要模型合理记忆范围之外的外部知识的问题。其次,衡量模型在没有检索的情况下是否无法准确回答。第三,验证答案并非从常识或模型的训练数据中轻易得出。
首先,构建测试数据集,其中包含明确需要最新、特定领域或晦涩信息的问题。例如,包含关于模型训练截止后发生的近期事件的查询(例如,“2024 年联合国气候峰会的结果是什么?”)。避免诸如“谁写了哈姆雷特?”之类的常见知识可以轻松回答的通用问题。相反,设计结合多个事实的问题(例如,“X 国 2023 年的经济政策与瑞典 1990 年代的方法相比如何?”),迫使模型合成它不太可能记住的信息。数据哈希或校验和等工具可以帮助验证测试用例与训练数据不重叠。
接下来,评估模型在两种场景下的性能:有和没有检索增强。如果模型在没有检索的情况下实现了高精度,则测试集可能不够具有挑战性。例如,如果没有检索,正确回答“法国的首都是什么?”之类的问题 100% 的时间,这是一个微不足道的案例。但是,如果模型在“列出 2024 年发表的关于干旱地区可再生能源的三项同行评审研究”等问题上遇到困难,则可能需要检索。跟踪诸如答案置信度分数之类的指标——没有检索的低置信度表明模型缺乏所需的知识。此外,分析错误模式:如果模型产生看似合理但不正确的答案(例如,幻觉研究标题),则表明需要外部验证。
最后,让人工专家审核测试集。领域专家可以标记可能无意中与模型的训练数据对齐或依赖于广为人知的事实的问题。例如,医学测试集应排除诸如“什么导致糖尿病?”之类的问题,但应包括“2023 年 NIH 关于 XYZ 药物指南中的剂量建议是什么?”进行迭代测试:如果模型在没有检索的情况下经过细微调整后性能显着提高,则可能需要改进测试集。动态基准(例如,每月更新问题)等工具可以帮助保持严谨性。技术检查和人工监督的这种结合确保测试集真正评估了依赖于检索的推理。