句子Transformer可以与其他模态(例如图像或音频)有效地结合使用,通过创建共享嵌入空间来实现跨模态检索和对齐。这些模型为文本生成密集的向量表示(嵌入),可以使用联合训练或后处理技术将其与其他模态的嵌入对齐。例如,将图像标题与图像关联涉及训练一个模型,将文本和图像嵌入映射到共享空间,从而实现相似度比较。类似地,对齐音频转录片段可能涉及将口语文本和音频特征嵌入到同一空间中,以识别重叠或连接。
一个实际应用是跨模态检索,例如使用文本查询搜索图像。在这里,句子Transformer编码文本标题,而视觉模型(例如 ResNet 或 ViT)处理图像。在训练过程中,可以使用对比损失来最小化匹配的图像-文本对之间的距离,并最大化不匹配对之间的距离。例如,电子商务平台可以使用此功能让用户通过自然语言描述产品进行搜索,系统将检索嵌入与查询文本嵌入最接近的图像。CLIP 等工具展示了这种方法,但开发人员可以使用句子Transformer处理文本和预训练的视觉模型处理图像,构建自定义管道,并在特定领域数据上进行微调。
对于音频对齐,考虑将播客节目与其转录内容同步。句子Transformer可以嵌入转录片段,而音频编码器(例如 Wav2Vec)将原始音频处理成嵌入。通过计算音频和文本嵌入之间的相似度得分,可以将片段与其对应的时间戳匹配。这对于视频编辑等应用非常有用,其中自动字幕同步需要将口语对话与文本对齐。另一个例子是对齐多语言音频内容:使用句子Transformer嵌入的不同语言的转录内容,可以通过比较嵌入相似度将其与其翻译的音频对应内容关联起来,即使音频本身未被翻译。
最后,多模态融合将这些思想扩展到结合文本、图像和音频,以实现更丰富的应用。视频搜索系统可能允许通过文本、音频剪辑或图像进行查询,每种模态都由其相应的编码器处理并映射到共享空间。例如,像“查找有狗叫的场景”这样的查询可能涉及来自句子Transformer的文本嵌入、狗叫声的音频嵌入以及狗的图像嵌入,所有这些都贡献于搜索结果。同样,内容审核系统可以通过比较文本和图像嵌入来标记不匹配的内容(例如,标记为“猫”但包含狗的图像)。通过将句子Transformer与特定模态编码器集成,并在对齐的数据集上进行训练,开发人员可以构建灵活的系统,利用每种数据类型的优势。