平均精度均值 (MAP) 和 F1 分数是用于评估检索增强生成 (RAG) 系统中检索质量的指标。 MAP 通过平均多个查询的精度分数来衡量系统对相关文档的排序效果,并强调结果的顺序。 F1 分数平衡了精确率(检索到的项目中有多少是相关的)和召回率(检索到了多少相关项目),为二元分类任务提供了一个单一指标。 这两个指标都有助于开发人员评估 RAG 系统是否检索到对下游任务(如答案生成)有用的信息。
当检索到的文档的排名直接影响 RAG 系统输出的质量时,MAP 特别有帮助。 例如,在问答系统中,生成器可能会优先考虑前三个检索到的文档。 如果相关文档出现在列表的前面,则生成器更有可能生成准确的答案。 MAP 通过计算在找到相关文档的每个位置的平均精度来评估这一点,然后平均所有查询的这些值。 假设一个用于医疗诊断的 RAG 系统为每个查询检索五个文档,并且对于三个不同的查询,关键指南出现在位置 1、2 和 4。 MAP 将惩罚相关文档埋在列表较低位置的系统,从而突出显示可能降低答案质量的排名效率低下。
当开发人员需要在检索足够多的相关文档(召回率)和避免不相关文档(精确率)之间取得平衡时,F1 分数非常有用。 例如,在法律研究 RAG 工具中,遗漏关键先例(低召回率)可能导致不正确的建议,而包含太多不相关的案例(低精确率)可能会使生成器感到困惑。 F1 分数通过协调这两个指标来量化这种平衡。 如果一个系统检索了 10 个文档,其中 7 个是相关的(精确率 = 0.7),并且涵盖了所有相关文档的 70%(召回率 = 0.7),则 F1 分数为 0.7。 这有助于开发人员调整检索阈值或模型置信度分数,以优化两种指标同等重要的情况,例如必须避免遗漏关键解决方案同时最大限度地减少噪音的客户支持聊天机器人。
在实践中,MAP 非常适合评估排名质量至关重要的 RAG 系统,例如依赖 top-k 结果的应用程序(例如,摘要工具)。 F1 分数适用于检索到的相关文档的绝对计数比它们的顺序更重要的情况,例如标记所有有害帖子的内容审核系统。 通过在检索模型训练或索引优化期间(例如,调整嵌入空间)跟踪这些指标,开发人员可以系统地提高特定用例的 RAG 性能。 例如,如果一个开发人员比较两个检索模型,如果他们的 RAG 系统优先考虑来自顶部结果的答案准确性,他们可能会选择具有较高 MAP 的模型,如果覆盖率和相关性平衡至关重要,则选择具有较高 F1 的模型。