零样本图像生成(Zero-shot image generation)指的是机器学习模型无需显式训练即可创建其从未接触过的类别的图像的能力。与需要为每个特定类别提供大量训练数据的传统图像生成模型不同,零样本方法依赖于理解已知和未知类别之间的语义关系。例如,一个在狗和猫等动物上训练的模型,可以通过利用文本描述或共享属性(例如,“带条纹的马科动物”)来生成一幅逼真的“斑马”图像,而无需在训练数据中见过斑马。这是通过将图像生成与高级概念或文本嵌入对齐来实现的,从而使模型能够泛化到未见过的类别。
从技术上讲,零样本图像生成通常结合了视觉语言模型(例如 CLIP)和生成架构,如 GAN 或扩散模型。这些模型将文本提示或语义描述映射到共享嵌入空间中,以指导图像合成过程。例如,文本提示“一只拥有火烈鸟腿和孔雀羽毛的鸟”可以引导模型将已知类别的特征(火烈鸟腿、孔雀羽毛)组合成一幅全新的图像。像 DALL-E 或 Stable Diffusion 这样的框架通过文本提示生成图像,甚至可以生成高度特定或抽象概念的图像,从而证明了这一点。关键在于模型能够基于语义线索分解和重新组合视觉特征,而不是记住固定的类别。
零样本图像生成面临的挑战包括在组合不熟悉的属性时保持视觉连贯性并避免产生伪影。例如,生成一个“发光的象”可能会导致不现实的光线位置,如果模型缺乏关于“发光”如何与大象解剖结构相互作用的上下文。评估也很棘手,因为像 FID (Fréchet Inception Distance) 这样的指标可能无法完全捕捉到未见过类别的语义对齐。开发者通常通过优化文本和图像嵌入之间的对齐,或在扩散模型中使用迭代细化步骤来解决这些问题。虽然不完美,但零样本图像生成为创意设计或数据增强等应用打开了大门,在这些领域,无需重新训练即可生成新颖的视觉概念非常有价值。