多跳问题的用户期望与简单查询有三个关键区别:深度、逻辑连贯性和来源可靠性。与需要直接事实检索的单步问题不同,多跳问题需要连接来自多个来源或推理步骤的信息。例如,回答“第一枚 SpaceX 火箭降落时巴黎的平均气温是多少?”需要找到火箭降落日期(2015 年)以及该时期巴黎的天气数据。用户期望答案明确显示这些信息如何关联,而不仅仅是呈现最终结果。他们还希望答案解释潜在的歧义,例如“第一次成功降落”是指 Falcon 9 在 2015 年的里程碑还是早期的尝试。
评估指标必须优先考虑与用于简单 QA 不同的因素。传统的指标如 BLEU 或精确匹配在这里不起作用,因为它们侧重于表面文本相似性而非推理有效性。一种更好的方法结合了三个要素:
- 步骤正确性:使用事实检查或有依据的引用验证每个逻辑跳跃(例如,在查找天气之前确认火箭降落日期)。
- 答案连贯性:衡量最终答案是否连贯地综合信息,避免步骤之间的矛盾。逻辑蕴涵模型或依存关系分析等工具可以帮助评估这一点。
- 用户后续提问的可能性:跟踪隐含信号,例如用户是否立即提出澄清问题或重新措辞查询,这表明存在未解决的疑问。
对于开发者而言,这意味着要超越单一分数的指标。多跳评估系统可以结合以下因素:
- 对每个推理步骤进行自动化事实验证(使用 Wikidata 或特定领域知识图谱等工具)
- 对概念连接清晰度的人工评分(例如,按 1-5 分制评分:“答案是否解释了为什么步骤 A 会导致步骤 B?”)
- 会话级分析,跟踪用户是否需要额外搜索来验证中间结果。
例如,回答“GDPR 如何影响 AWS 在德国医疗行业的采用?”的答案应该明确将 GDPR 的数据驻留规则与 AWS 法兰克福区域的推出联系起来,然后再将其与医疗行业的迁移模式联系起来。即使所有事实在技术上都是准确的,未能显示因果关系的答案在评估中也会受到惩罚。这种精细化的方法比传统指标更能反映用户对复杂推理的满意度。