嵌入通过在向量空间中编码的语义关系,使模型能够推广到未见过的任务或类别,从而支持零样本学习。 嵌入将数据(如单词、图像或概念)表示为密集向量,这些向量捕获它们的含义和上下文。 在零样本学习中,模型利用这些预先计算好的嵌入来识别或分类新的示例,而无需对它们进行显式训练。 这是因为嵌入将语义相似的项目(例如,“猫”和“狗”)放置在向量空间中更近的位置,从而使模型能够根据接近度或相似度来推断已知类和未知类之间的关系。 例如,在嵌入上训练的语言模型可以推断出“小猫”与“猫”有关,即使在训练期间没有明确显示“小猫”这个词。
一个关键应用是跨模态嵌入对齐,其中不同的数据类型(例如,文本和图像)被映射到共享的向量空间。 像 CLIP(对比语言-图像预训练)这样的模型使用这种方法:图像及其文本描述在训练期间被嵌入到同一空间中。 在推理时,零样本图像分类器可以将输入图像的嵌入与类标签的文本嵌入(例如,“斑马的照片”)进行比较,以预测正确的类别,即使训练数据中没有斑马。 这是因为模型理解图像的视觉特征和文本描述的含义之间的语义联系,所有这些都在共享的嵌入空间中。
嵌入还编码分层或关系结构,这有助于模型进行泛化。 例如,如果模型的嵌入捕获到“哺乳动物”是一个包含“狗”和“猫”的更广泛的类别,那么如果它的嵌入与“哺乳动物”集群对齐,它就可以推断出像“浣熊”这样的新动物属于同一类别。 同样,在多语言模型中,嵌入对齐不同语言中的单词,从而可以在训练期间未见过的语言对之间实现零样本翻译。 通过以这种方式构建知识,嵌入充当已知任务和未知任务之间的桥梁,允许模型使用语义相似性进行推断,而不是仅仅依赖于显式训练示例。 这种方法减少了对特定于任务的数据的需求,同时保持了鲁棒性。