嵌入通过将文本、图像或音频等不同的数据类型转换为共享公共数学空间的数值表示,从而支持多模态 AI 模型。 这使得模型可以跨模态处理和关联信息,即使原始数据格式根本不同。 例如,狗的文本描述和狗的图像都可以映射到高维空间中位置相似的嵌入向量。 通过对齐这些表示,模型学习关联跨模态的概念,从而实现诸如使用文本查询搜索图像或为视频生成字幕之类的任务。
嵌入支持多模态模型的一个关键方式是弥合数据类型之间的语义差距。 像 CLIP(对比语言-图像预训练)这样的模型训练用于文本和图像的单独编码器,从而产生通过对比学习对齐的嵌入。 在训练期间,匹配的图像和文本对(例如,照片及其标题)在嵌入空间中被推得更近,而不匹配的对则被分开。 这创造了一种共同的理解: “红色气球”的嵌入在几何上变得接近于实际的红色气球图像的嵌入。 同样,音频嵌入可以与文本或视觉嵌入对齐,例如将口语单词映射到其转录或将声音效果与视频场景相关联。
从实际角度来看,嵌入简化了复杂的多模态工作流程。 例如,在检索系统中,嵌入允许使用向量相似性指标(如余弦距离)将用户的文本查询直接与图像或视频数据库进行比较。 在生成任务中,嵌入充当媒介:来自提示的文本嵌入可以指导扩散模型创建相应的图像(例如,Stable Diffusion)。 开发人员还可以重用预训练的嵌入来启动数据有限的模型 - 语音识别系统可能会利用在大型语料库上训练的文本嵌入来提高准确性。 通过提供一种统一的方式来表示和关联数据,嵌入减少了每个模态自定义架构的需求,从而使多模态系统更具可扩展性和效率。