衡量检索到的多模态内容(例如文本、图像、音频或视频的组合)的相关性,需要评估检索到的数据在所有模态上与用户查询或意图的匹配程度。与单模态检索不同,多模态系统必须考虑不同数据类型之间的交互。例如,搜索“包含动画图解的神经网络解释视频”需要视觉内容(图解)和音频或文本解释来匹配查询。这里的相关性取决于系统理解查询组件并将其与检索内容的特征有效连接的能力。
一种常用方法是使用跨模态相似性度量。这包括将不同模态嵌入到共享向量空间中,以便衡量它们之间的语义关系。例如,可以使用 CLIP(对齐文本和图像)等模型将文本查询和图像转换为嵌入。这些嵌入之间的余弦相似度可以量化它们的相关性。开发者还可以应用融合技术,将来自多个模态的特征组合成一个相关性得分。例如,视频的相关性可以通过对其音频转录(文本)、视觉帧(图像)和元数据之间的相似性得分进行平均来确定。FAISS 或 Annoy 等工具可以高效地在大规模系统中搜索这些嵌入。然而,一个模态中的噪声或不匹配(例如,带有不相关背景音乐的视频)可能会扭曲结果,因此平衡模态贡献至关重要。
特定任务的评估指标也必不可少。在图像-文本检索中,Recall@K(相关项在 Top K 结果中出现的频率)等指标是标准做法。对于视频检索,时间对齐(确保音频和视觉事件在正确的时间发生)可能很重要。对于主观任务,有时需要进行人工评估,例如评估梗图(meme)的图像和文本是否幽默相关。仅依靠自动化指标可能会错过细微之处,因此混合方法更为实用。例如,一个食谱应用在检索烹饪视频时,可以使用文本-图像相似度进行配料匹配,但依靠用户反馈来优化结果。最终,多模态系统中的相关性衡量取决于技术指标与特定用例的对齐,以及基于实际性能进行的迭代。