为了在没有已知 ground-truth 最近邻的情况下评估向量数据库的检索性能,开发人员可以使用人工相关性判断或近似方法来模拟或推断有意义的基准。这些方法侧重于衡量数据库检索结果与实际相关性的一致程度,即使没有预定义精确匹配。目标是创建代理指标或利用领域特定知识来评估质量。
一种方法涉及人工相关性判断,其中领域专家或注释员手动评估一组样本查询的检索结果。例如,开发人员可以策划一个具有代表性的查询子集,并要求注释员根据查询的意图将每个返回的项目标记为“相关”、“部分相关”或“不相关”。然后,可以使用诸如 precision@k(被认为是相关的 top-k 结果的比例)或平均精度均值 (MAP) 等指标来量化性能。为了确保一致性,注释者间一致性评分(例如,Cohen 的 kappa)有助于验证人工标签的可靠性。虽然这种方法是劳动密集型的,但它提供了对相关性的直接、可解释的度量,特别是对于不存在自动化基准的利基数据集。例如,医学成像数据库可能依赖放射科医生来验证检索到的扫描是否符合特定疾病的诊断标准。
另一种策略是使用替代技术创建近似 ground truth。一种常见的方法是在数据子集上使用速度较慢但更精确的算法(例如,穷举搜索)来生成参考结果。例如,如果完整数据集有 1000 万个向量,开发人员可能会在 10,000 个向量的子集上运行精确搜索,并将这些结果视为测试向量数据库在该子集上的准确性的 ground truth。或者,不同检索模型之间的交叉验证(例如,比较 HNSW 和 IVF 索引的结果)可以突出显示一致的项目,这些项目更有可能是正确的。具有预定义集群或已知关系的合成数据集(例如,从结构化规则生成的嵌入向量)也允许开发人员在受控场景中测试检索行为。虽然合成数据可能无法反映真实世界的复杂性,但它有助于验证基本功能,例如集群遵守或距离度量正确性。
一种混合方法将人工评估与自动化检查相结合以实现可扩展性。例如,开发人员可能会使用近似 ground truth 来识别边缘情况或高差异结果,然后手动验证这些结果。诸如相关性反馈循环(系统通过结合人工标记数据迭代改进)等工具也可以随着时间的推移改进性能。此外,诸如查询延迟、索引速度或资源约束下的召回率(例如,限制搜索的节点数量)等间接指标提供了对运营效率的补充见解。例如,推荐系统可能会优先考虑在低于 50 毫秒的延迟下平衡 recall@20,即使无法获得精确的 ground truth。通过结合这些方法,开发人员可以构建一个强大、多方面的评估框架,以满足其数据集的独特要求。