为多模态搜索创建评估数据集涉及组合多种数据类型(如文本、图像和音频),并确保它们反映真实世界的搜索场景。 目标是构建一个数据集,用于测试系统在各种模态中检索相关结果的效果。 首先定义用例:用户是使用图像和文本进行搜索,还是使用视频和语音查询? 例如,购物应用程序可能需要将产品图片与描述配对的数据集,并且查询将衬衫的照片与“蓝色棉质休闲”等文本相结合。 数据集必须包括这些跨模态交互的各种示例,以评估系统是否理解单独和组合的输入。
接下来,收集和注释涵盖多样性和相关性的数据。 使用现有的公共数据集(例如,用于图像-文本对的 COCO 或用于声音片段的 AudioSet)以节省时间,但使用自定义数据进行补充以填补空白。 例如,如果测试使用图像和成分的食谱搜索工具,请收集带有分步说明和成分列表的食物照片。 使用指示哪些结果与特定查询相关的真实标签来注释每个数据点。 包括否定示例——例如,不匹配的图像-文本对(例如,标记为“美味披萨”的蛋糕照片)——以测试系统拒绝不相关匹配的能力。 确保数据集扩展到数千个示例,以避免过度拟合并捕获边缘情况,例如弱光图像或带有口音的语音。
最后,设计与真实世界性能对齐的评估指标。 常用指标包括精确率(有多少顶级结果是正确的)和召回率(是否找到所有相关项目),但多模态系统需要额外的措施。 例如,测试与仅使用任一模态相比,向图像添加文本查询是否提高了结果准确性。 使用真实用户的 A/B 测试来验证数据集的有效性:如果使用照片和文本搜索“复古皮夹克”的用户获得的结果比使用一种模态更好,则数据集正在工作。 不断更新数据集以反映新的趋势,例如文本查询中出现的新俚语或新的视觉样式,确保评估随着用户行为的演变而保持相关性。