RAG 系统中不同的检索策略通过决定系统是提供透明的来源还是依赖不透明的内部知识,直接影响答案的可解释性。当 RAG 系统检索并引用外部来源(例如文档、数据库)时,用户可以追踪信息的来源,从而使答案更具解释性。例如,如果用户问“气候变化的原因是什么?”,而系统引用了同行评审的研究或权威报告,答案的可信度就得到了可见证据的加强。相比之下,非 RAG 模型(如标准语言模型)完全基于其预训练的内存生成答案,无法验证信息的来源。这种缺乏来源信息的情况使得用户难以评估准确性,尤其是在涉及细微或有争议的话题时。因此,基于检索的系统优先考虑透明度,而不透明的模型则牺牲解释性以换取简洁性。
评估用户对这些方法的信任需要衡量感知到的可靠性和实际的验证行为。对于带有引用来源的系统,可以通过用户调查来评估信任度,询问受访者在看到来源时对答案的信心程度。引用的点击率或花费在查看链接文档上的时间等指标可以表明用户对来源的参与程度。对于不透明模型,信任可能与系统的历史准确性相关——例如,跟踪用户不加质疑地接受答案的频率。A/B 测试可以通过提供相同但分别带有或不带引用的答案来比较信任度。此外,特定领域的评估(例如医疗或法律情境)可以通过让专家根据事实真相来验证答案来衡量信任度。随着时间的推移,持续提供准确、有可靠来源的答案的系统可能会建立更强的信任,即使用户不完全理解检索机制。
具体示例突显了这些差异。一个用于技术文档的 RAG 系统可能会从官方 API 参考中检索代码片段并链接到它们,这使得开发者可以确认建议与最新版本一致。相反,一个从内存生成代码的语言模型可能会不小心建议已废弃的方法,而用户无法发现问题。同样,在医疗保健领域,引用临床试验的 RAG 系统使医生能够验证建议,而不透明模型无来源的说法可能会被视为不可靠而被驳回。为了评估信任度,开发者可以模拟高风险场景(例如,调试关键错误),并衡量用户复查引用来源的频率与接受不透明答案的频率。这些测试揭示了透明度是否直接影响用户的信心和决策,为改进系统设计提供了可行的见解。