在搜索系统中处理词汇表外的 (OOV) 图像涉及的技术,允许系统处理和检索那些不属于训练数据或预定义类别的图像。 核心方法依赖于基于嵌入的检索,其中使用 CNN 或 Vision Transformers 等模型将图像转换为高维向量(嵌入)。 这些模型概括了视觉特征,即使图像在训练期间未被明确看到,也能实现图像之间的比较。 例如,在常见对象上训练的搜索系统仍然可以为新图像(例如,新设计的产品)生成嵌入,并将其与索引中视觉上相似的项目进行匹配。 这绕过了对明确类别标签的需求,而是专注于学习到的视觉模式。
一种实用的方法是使用像 CLIP(对比语言-图像预训练)这样的预训练模型,它将图像和文本映射到共享的嵌入空间中。 CLIP 允许 OOV 图像与文本查询匹配,即使图像类别不在训练数据中。 例如,用户搜索“具有几何形状的抽象艺术”可以检索 OOV 图像,如果其 CLIP 生成的嵌入与文本查询的嵌入对齐。 另一种方法涉及近似最近邻 (ANN) 算法,如 FAISS 或 HNSW,它们可以有效地搜索大型嵌入空间。 当 OOV 图像添加到索引时,会计算并存储其嵌入,允许将来的搜索包括它,而无需重新训练模型。 这在动态应用程序(如电子商务)中非常有用,在电子商务中会不断添加新产品图像。
挑战包括确保 OOV 图像的嵌入有意义。 如果模型没有遇到类似的视觉模式,则嵌入可能缺乏区分能力。 为了解决这个问题,混合系统将视觉嵌入与元数据(例如,用户标签)相结合,或者定期在特定领域的数据上微调模型。 例如,照片分享应用程序可以使用“日落”或“山脉”等元数据来补充对罕见景观的视觉搜索。 实时索引管道也可以逐步更新 ANN 索引,确保 OOV 图像可以立即搜索。 虽然没有一种方法是完美的,但结合强大的嵌入模型、高效的索引和补充数据有助于缓解 OOV 限制,在生产系统中平衡准确性和可扩展性。