嵌入 (Embeddings) 是数据的数值表示,使生成式 AI 模型能够处理和生成内容。 它们将离散的输入(如单词、图像或声音)转换为连续向量(数字数组),这些向量捕获语义关系。 例如,在文本生成中,每个单词都映射到一个高维向量,使模型能够理解单词之间的相似性(例如,“国王”和“女王”在向量空间中比“国王”和“苹果”更接近)。 类似地,在图像生成中,嵌入 (embeddings) 可以将像素块或整个图像表示为向量。 这种数值形式至关重要,因为神经网络运行数学运算,而嵌入 (embeddings) 提供了一种将原始数据转换为这些模型可以高效处理的格式的方式。
在训练期间,嵌入 (embeddings) 被学习或微调以捕获上下文和结构模式。 在基于 Transformer 的模型(如 GPT)中,嵌入 (embeddings) 充当两个角色:Token 嵌入 (embeddings) 表示单个单词,而位置嵌入 (embeddings) 对序列中 Token 的顺序进行编码。 例如,单词“银行”可能具有不同的嵌入 (embeddings),具体取决于它出现在“河岸”还是“银行账户”中,从而使模型能够处理多义性。 在用于图像生成的扩散模型中,嵌入 (embeddings) 通常表示图像的潜在特征,这些特征在去噪过程中被迭代细化。 预训练的嵌入 (embeddings) (例如 Word2Vec 或 CLIP 文本编码器)有时用于引导训练,提供一个已经编码有用语义关系的起点。
嵌入 (embeddings) 提高了泛化能力并实现了跨模态应用。 例如,在 Stable Diffusion 中,文本提示通过 CLIP 转换为嵌入 (embeddings),从而引导图像生成过程与文本描述对齐。 在聊天机器人中,嵌入 (embeddings) 通过保持上下文一致性来帮助生成连贯的响应——每个 Token 的嵌入 (embedding) 携带有关对话历史的信息。 嵌入 (embeddings) 还降低了计算复杂度:模型不再处理数百万个唯一的 Token,而是处理固定大小的密集向量。 这种效率使生成模型能够扩展到更大的数据集和更复杂的任务,例如通过将文本嵌入 (embeddings) 映射到图像嵌入 (embeddings),将医疗报告翻译成视觉图表。 通过将数据抽象到共享的数值空间中,嵌入 (embeddings) 弥合了原始输入和 AI 模型的生成能力之间的差距。