多模态 AI 模型处理并生成跨多种数据类型的信息,例如文本、图像和音频。 三种广泛使用的模型是 CLIP、Flamingo 和 DALL-E。 CLIP 由 OpenAI 开发,它使用对比学习来学习将图像与文本描述相关联。 它由用于文本和图像的单独编码器组成,经过训练以对齐它们在共享空间中的嵌入。 这使得零样本图像分类等任务成为可能,模型可以识别它没有明确训练过的对象。 例如,CLIP 可以通过将图像的嵌入与文本标签进行比较,将狗的图像分类为“金毛寻回犬”。 开发人员通常使用 CLIP 进行内容审核、搜索或作为更大系统(如 Stable Diffusion,用于文本到图像生成)中的组件。
Flamingo 由 DeepMind 创建,专注于结合视觉和语言来完成诸如视觉问答或对话之类的任务。 它使用 Perceiver 架构处理图像和文本序列,该架构可以有效地处理可变长度的输入。 Flamingo 的主要创新在于它能够交错预训练的视觉和语言组件,从而实现少样本学习。 例如,给定几个基于图像的问题和答案的示例,Flamingo 可以生成对新查询的准确响应。 开发人员可能会将 Flamingo 集成到需要理解视觉上下文的聊天机器人或教育工具中。 另一个例子是同样来自 OpenAI 的 DALL-E,它可以从文本提示生成图像。 与 CLIP 不同,DALL-E 使用在文本-图像对上训练的 Transformer 架构来创建新颖的视觉效果。 开发人员利用 DALL-E 的 API 来开发诸如营销内容创建或原型设计之类的应用程序。
其他值得注意的模型包括 ALIGN (Google),它在嘈杂的网络数据上进行训练以对齐图像-文本对,以及诸如 ViLBERT 之类的架构,它融合了视觉和语言 BERT 模型以用于诸如图像字幕之类的任务。 这些模型通常依赖于基于 Transformer 的架构和大规模数据集。 对于开发人员来说,诸如 Hugging Face 的 Transformers 库之类的工具提供了可访问的实现。 一种实用的方法是结合预训练模型 - 例如,使用 CLIP 对 DALL-E 生成的图像进行相关性排序。 虽然从头开始训练多模态模型需要大量资源,但在特定领域的数据(例如,带有报告的医学图像)上微调现有模型是一种常用策略。 重点仍然是改进不同模态的交互方式,无论是通过共享嵌入空间还是交叉注意力机制,以构建更好地模仿人类理解的系统。