要衡量中间检索步骤的成功与否,例如验证第一次检索的线索是否有助于第二次检索,您需要直接评估指标和下游性能分析相结合。 首先,使用精确率、召回率或相关性评分等指标独立评估中间输出。 例如,如果第一次检索旨在查找一组引导第二步的关键词或文档,您可以检查这些结果是否与预定义的 ground truth 线索一致。 如果系统检索到下一步所需的特定日期或名称的文档,您可以计算正确识别这些关键信息的频率。 诸如精确匹配检查、关键词重叠分数或语义相似性指标(例如,检索到的文本和预期线索之间的余弦相似度)之类的工具可以量化这一点。
接下来,评估中间结果如何影响最终输出。 例如,如果第二次检索使用该线索来缩小数据库查询范围,请跟踪在中间步骤成功时,最终答案是否有所改进。 A/B 测试在这里很有用:比较有和没有中间步骤或使用不同检索策略的系统的端到端性能。 假设一个问答系统首先检索一个支持段落(线索),然后从中提取答案。 如果该段落是相关的,则答案准确性应该提高。 通过将中间成功(例如,段落相关性评分)与最终准确性相关联,您可以验证线索的重要性。
最后,使用结构化的验证检查点。 例如,在多跳问答流水线中,手动注释每个步骤中预期的中间线索,并衡量每个阶段的检索准确性。 如果第一步应该检索“1969 年的事件”来回答“谁赢得了那年的世界大赛?”,请验证检索到的文档是否包含 1969 年的棒球比赛结果。 在测试期间记录中间输出并分析故障模式(例如,由于缺少线索而导致第二步失败)也有助于识别瓶颈。 诸如检索项目的置信度分数或错误归因框架之类的工具可以隔离流水线中断的位置,确保可衡量地验证每个步骤的贡献。