跨模态检索是一种技术,可以使用一种模态(例如文本)的查询来搜索另一种模态(例如图像)的数据。 例如,您可以输入一段文本描述(例如“阳光明媚的街道上的红色自行车”)来搜索图像数据库。 目标是将不同数据类型(文本、图像、音频等)的表示对齐到共享的嵌入空间中,以便可以直接比较它们。 这要求模型学习模态之间有意义的联系——例如将“自行车”一词与自行车的视觉特征相关联。 一种常见的实现方式是使用神经网络将文本和图像映射到相同的向量空间中,从而可以计算文本查询和图像嵌入之间的相似度(例如,余弦相似度)。 应用包括用于库存照片数据库的文本到图像搜索引擎或使用文本描述的音频检索。
另一方面,多模态搜索涉及在单个查询中组合多个输入模态,以提高搜索准确性。 它不是跨模态查询,而是利用来自不同数据类型的补充信息。 例如,购物应用程序可能允许用户使用连衣裙的照片和诸如“50 美元以下的长袖”之类的文本提示来搜索产品。 在这里,系统会联合处理图像和文本以缩小结果范围。 这通常涉及融合来自不同模态的嵌入(例如,使用连接或注意力机制)以创建统一的表示。 与跨模态检索解决查询和结果类型不匹配的问题不同,多模态搜索处理查询本身是多种输入混合的情况。 一个实际的例子是视频搜索平台,它结合语音转录、视觉帧和元数据来查找相关的剪辑。
关键的区别在于它们解决的问题。 跨模态检索侧重于弥合模态差距(例如,文本 → 图像),而多模态搜索通过组合模态来丰富查询(例如,文本 + 图像 → 图像)。 跨模态系统需要对比学习等对齐技术(用于像 CLIP 这样的模型)来连接不同的数据类型,而多模态系统则优先考虑融合方法来有效地合并输入。 对于开发人员来说,选择哪一种取决于用例:跨模态适合查询和结果本质上不同的场景(例如,基于语音的图像搜索),而多模态在查询可以从多个同时信号中受益时更好(例如,使用文本过滤器优化图像搜索)。 两者都需要仔细处理嵌入,但解决了现代搜索系统中不同的挑战。