在评估 RAG(检索增强生成)系统时,检索指标和生成指标通常应该分开分析并结合起来分析。这种双重方法确保您能够诊断每个组件的弱点,同时了解它们的组合影响。单独呈现它们对于调试至关重要:生成质量差可能源于检索错误,反之亦然。然而,汇总指标可以提供系统性能的整体视图,尤其是在比较模型或针对特定用例进行优化时。选择取决于评估目标——故障排除需要分离,而整体基准测试则受益于汇总。
单独分析至关重要,因为检索和生成扮演着不同的角色。检索指标,如 precision@k(前 k 个检索文档的准确性)或召回率(相关内容的覆盖率),直接衡量系统识别有用信息的程度。生成指标,如 BLEU、ROUGE 或 BERTScore,评估生成文本的流畅性、相关性和准确性。例如,如果一个医疗 QA 系统检索到正确的医学研究(高 precision@5),但生成答案却存在事实错误(低 BERTScore),问题就出在生成器上。相反,检索中的低召回率可能导致由于缺少上下文而产生貌似合理但不正确的答案。将指标分开有助于开发者确定改进的重点——是微调检索器、扩展文档语料库,还是调整生成器的提示词。
聚合对于总结性能或优先处理权衡非常有用。一种方法是加权评分:给检索(例如,0.7)和生成(例如,0.9)分配一个分数,然后根据它们对任务的重要性将它们结合起来(例如,总分 0.8)。例如,法律研究工具可能会给予检索更高的权重(70%),因为引用正确的先例至关重要;而聊天机器人可能会平衡两者,给予同等权重。另一种方法是任务特定的指标,例如问答中的答案正确性,这本身就结合了检索和生成。RAGAS 等工具通过将检索内容与生成答案对齐来计算综合得分。然而,聚合存在掩盖组件特定问题的风险——只有在确定每个组件的基线性能后才能结合指标。为了透明起见,请同时报告聚合指标和单独指标,以平衡简洁性和诊断效用。