平均精度均值 (mAP) 或平均精度 (AP) 是用于评估排名检索结果质量的指标,尤其是在相似性搜索等任务中。 AP 衡量系统检索相关项并将它们排在非相关项之上的效果。 对于单个查询,AP 计算在排名列表中出现相关项目的每个位置的精度(检索到的相关项目比例),然后对这些值求平均。 例如,如果一个查询有三个相关项目出现在结果列表中的位置 1、3 和 5,则在每个位置计算精度(1/1=1.0、2/3≈0.67、3/5=0.6),并且这些值的平均值 (1.0 + 0.67 + 0.6)/3 ≈ 0.76 给出该查询的 AP。 mAP 是数据集中所有查询的 AP 值的平均值,提供检索性能的聚合度量。
在向量数据库中的相似性搜索中,mAP 用于评估数据库响应查询返回相关向量(例如,图像、文本嵌入)的准确程度。 当针对数据库搜索查询向量时,系统按相似度分数(例如,余弦相似度)对结果进行排名。 AP 通过检查相关项目出现的时间和一致性来评估此排名。 例如,在图像检索系统中,如果对“红色汽车”的查询应返回 5 个相关图像,则 AP 会跟踪在找到相关图像的每个位置的精度。 完美的排名(所有 5 个相关图像都在前 5 个位置)将产生 1.0 的 AP。 如果相关项目分散(例如,位置 1、4、7、10、15),AP 会惩罚后面的位置,从而导致较低的分数。 这使得 AP 对召回率(检索所有相关项目)和排名质量都敏感。
开发人员使用 mAP 通过将向量数据库或机器学习模型(例如,用于嵌入的神经网络)的结果与ground-truth标签进行比较来对其进行基准测试。 例如,在面部识别系统中,如果测试了 100 个查询,每个查询的平均 AP 分数为 0.85,则 mAP 将为 0.85。 此指标特别有用,因为它考虑了每个查询中相关项目的数量变化,并强调了排名顺序的重要性。 高 mAP 表明系统可靠地尽早显示相关结果,这对于面向用户的应用程序(如搜索引擎或推荐系统)至关重要。 通过优化 mAP,开发人员可以迭代地改进其索引策略、相似性算法或模型训练,以实现更好的检索性能。