RAG(检索增强生成)的三联指标——答案相关性、支持相关性和正确性——是一个用于评估结合了文档检索和文本生成系统的框架。这些指标评估系统在检索适当信息、生成与查询一致的答案以及确保事实准确性方面的表现。它们共同解决了 RAG 系统的核心挑战:确保输出有用、基于有效来源且事实可靠。通过衡量这三个方面,开发者可以查明检索、生成或验证步骤中的弱点。
答案相关性评估生成的答案是否直接回应了用户的查询。例如,如果用户问“什么导致日食?”,即使答案准确地解释了月相,在这里得分也会很低。该指标确保系统保持主题一致,避免离题或泛泛的回答。支持相关性衡量检索到的文档(例如,数据库条目或网页)与查询的相关程度。如果系统针对日食问题检索到关于月食的文章,此指标就会标记出不匹配。最后,正确性检查答案是否与检索到的来源和外部知识事实一致。回答“日食每月发生一次”在这里会失败,因为它与已知的天文事实相矛盾。这三个指标协同工作:即使答案正确,但与查询或支持文档相关性差也会使其变得无用。
为了进行全面评估,必须追踪所有三个指标。例如,一个旅行助手 RAG 系统回答“什么时候去日本最好?”时,可能会检索到过时的博客文章(支持相关性低),导致建议在限制旅行的季节出行(正确性低)。或者,它可能检索到有效来源,但生成一个模糊的答案,例如“日本有四季”(答案相关性低)。通过分析所有三个指标,开发者可以确定失败是源于检索(例如,改进文档索引)、生成(例如,微调模型)还是验证(例如,添加事实核查层)。这三联指标提供了对性能的平衡视图,确保系统准确、了解上下文且以用户为中心。