图像搜索的数据集通常侧重于大规模标记或注释图像,以训练和评估将查询与相关图像匹配的系统。 主要有三个类别:通用数据集、特定领域数据集和用于测试检索准确性的基准数据集。 以下是最广泛使用的选项及其应用。
MS COCO 和 ImageNet 等通用数据集是基础。 MS COCO 包含超过 330,000 张图像,带有详细的对象注释、分割掩码和标题,使其可用于训练模型以识别对象及其上下文,这对于语义图像搜索至关重要。 ImageNet 拥有 1400 万张图像,标记了 20,000 个类别,通常用于预训练特征提取器(例如,ResNet),为基于嵌入的搜索系统提供支持。 基于 Flickr 的数据集,如 Flickr30k 或 Flickr8k,提供与图像配对的文本标题,从而实现文本到图像的检索任务。 这些数据集强调内容的 diversity,通常用于训练多模式系统,其中搜索查询可以是文本或视觉。
对于专门的用例,首选特定领域的数据集。 Stanford Online Products(120 万张产品图片)专为电子商务搜索中的度量学习而设计,其中细粒度的相似性至关重要。 GLAMI-1M 专注于时尚,包括带有颜色和款式等属性的服装,用于训练属性感知搜索模型。 地标检索通常使用 ROxford 和 RParis,其中包含在不同条件下(光照、角度)拍摄的著名地标照片,以测试鲁棒性。 这些数据集解决了诸如区分细微视觉差异或处理嘈杂的真实世界查询等挑战。
Revisited Oxford/Paris(ROxford/RParis 的更新版本)和 Google Landmarks 等基准数据集提供标准化评估协议。 它们包括困难负例和具有遮挡或视点变化的查询图库,帮助开发人员测试在具有挑战性的场景中的检索准确性。 许多研究论文还使用 DeepFashion(服装)或 Food-101(食物图像)来验证特定领域的搜索技术。 在选择数据集时,请优先考虑与您的应用程序要求相符的数据集,无论是通用对象检索、基于属性的搜索还是处理复杂的视觉变化。