图片搜索的常见评估指标着重衡量系统检索相关图片并准确排序的有效性。这些指标帮助开发者评估性能、识别弱点并比较不同算法。最广泛使用的指标包括 Precision(精确率)、Recall(召回率)、Mean Average Precision (mAP,平均精确率均值)、Normalized Discounted Cumulative Gain (NDCG,归一化折损累计增益) 和 Mean Reciprocal Rank (MRR,平均倒数排名)。每个指标都衡量了检索质量的特定方面,例如相关性、排序顺序以及跨查询的一致性。
Precision(精确率)和 Recall(召回率)是基础指标。精确率衡量检索到的图片中相关图片的比例(例如,如果 10 个结果中有 7 个与查询匹配,则精确率为 70%)。召回率计算数据集中所有相关图片中被检索到的图片的比例(例如,如果存在 20 张相关图片并找到了 10 张,则召回率为 50%)。开发者经常使用 precision@k 和 recall@k 来评估前 k 个结果,这对于用户端系统非常实用,因为用户通常只关注前几个结果。例如,precision@10 检查前 10 张图片中有多少是正确的。这些指标直观易懂,但它们不考虑排序顺序——靠前的结果不会比靠后的结果权重更高。
Mean Average Precision (mAP,平均精确率均值) 和 Mean Reciprocal Rank (MRR,平均倒数排名) 衡量排序质量。mAP 计算所有查询在所有召回率水平上的平均精确率得分。例如,如果一个查询在位置 1、3 和 5 检索到相关图片,则该查询的平均精确率是 precision@1、precision@3 和 precision@5 的平均值。通过计算所有查询的平均值,mAP 提供了衡量系统整体性能的稳健指标。MRR 关注第一个相关结果的排名。对于每个查询,它计算第一个正确匹配结果的位置的倒数(例如,如果第一个正确结果在位置 3,则 MRR 为 1/3)。所有查询的平均 MRR 突出了系统快速呈现相关内容的程度。
Normalized Discounted Cumulative Gain (NDCG,归一化折损累计增益) 通过分级相关性(例如,部分相关与高度相关图片)评估排序质量。它对列表中靠前的相关结果赋予更高的分数,并使用一个折损因子来降低靠后项目的权重。例如,位置 1 的相关图片比位置 10 的相关图片对分数贡献更大。NDCG 会将得分与理想排名进行归一化,使其可以在不同查询之间进行比较。当相关性不是二元关系时,这非常有用——例如,在产品图片搜索中,有些商品比其他商品更接近匹配。这些指标共同提供了对准确性、排序和一致性的全面视图,使开发者能够优化系统,兼顾相关性和用户体验。