SSL(自监督学习)通过训练模型学习图像和文本的有意义的表示,而无需依赖手动标记的数据集,从而用于图像描述和生成。SSL 不要求显式标注,而是利用数据本身的固有结构。例如,模型可以通过预测输入的缺失部分(例如,描述中的掩码词)或通过对比学习对齐视觉和文本特征,来学习将图像区域与文本描述相关联。这种方法减少了对精选数据集的依赖,并使模型能够更好地泛化到各种任务。
在图像描述中,SSL 框架通常在大型未标记图像和文本数据集上预训练模型。例如,像 CLIP(对比语言-图像预训练)这样的模型通过训练图像-文本对,学习将图像和文本映射到共享的嵌入空间中。在描述过程中,该模型通过将视觉特征与文本模式进行比较,使用这些嵌入来生成相关的描述。类似地,掩码语言建模(BERT 等模型中常见)可以进行调整:模型可以根据图像预测描述中缺失的词,反之亦然。对于图像生成,像变分自动编码器 (VAE) 或扩散模型这样的 SSL 技术学习从压缩表示中重建图像,这些表示稍后可以以文本提示为条件,以产生连贯的输出(例如,DALL-E 的文本到图像合成)。
实际上,SSL 简化了扩展。例如,开发人员可以在较小的标记数据集上微调预训练的视觉-语言模型(如 ViLBERT),以完成特定的描述任务,从而节省时间和资源。SSL 还支持混合任务,例如通过对齐两种模态的潜在空间,通过文本指令编辑图像。虽然 SSL 不能消除对数据的需求,但它将重点转移到有效利用非结构化数据(例如,带有 alt-text 的网络抓取的图像)。这使得 SSL 成为开发人员构建需要理解或生成多模态内容而无需大量手动标记的系统的灵活工具。