存在多种指标和分数来衡量回答与所提供文档的贴合度,特别是在检索增强系统(如 RAG,Retrieval-Augmented Generation)中。这些指标侧重于事实一致性、相关性以及对源材料的遵循。常见的例子包括**忠实度分数**(例如,来自 RAGAS 的分数)、**回答相关性**以及**上下文精确率/召回率**。这些工具有助于开发者评估生成的回答是否基于所提供的文档,并避免未经支持的断言或“幻觉”。
一个广泛使用的指标是**忠实度**,它衡量生成的回答是否与源文档事实一致。例如,RAGAS 通过比较回答中的断言与检索到的上下文来计算忠实度。如果回答称“文档提到了 2023 年的政策变化”,但源文档只提到了 2022 年,则忠实度分数会降低。像 RAGAS 这样的工具通常使用蕴含模型或交叉编码器来验证事实一致性。开发者可以通过运行自动检查来标记包含未经支持断言的回答,从而确保输出忠实于输入文档。
另一个关键指标是**回答相关性**,它评估回答在保持文档范围内的情况下,如何直接地回答了查询。例如,如果用户询问“气候变化对农业的影响”,而回答讨论了不相关的经济政策,那么相关性分数就会很低。RAGAS 或自定义流水线等框架可能会使用语义相似性模型(例如 SBERT)来比较回答的重点与查询和源上下文。此外,**上下文精确率**和**召回率**衡量检索到的文档是否完全涵盖了回答的断言(召回率)并避免了不相关的内容(精确率)。对于开发者来说,结合这些指标提供了一种可靠的方式来评估回答与文档的贴合度,同时保持连贯性并避免无关信息。