零样本学习(ZSL)通过利用其独特的泛化到未见类别的能力来应对对抗性样本,但这种方法也引入了特定的脆弱性。在 ZSL 中,模型通过使用语义属性或文本描述等辅助信息来对从未明确训练过的类别的进行数据分类。例如,一个在动物上训练的 ZSL 模型可以通过将视觉特征与“条纹”或“水生”等文本属性对齐来推断新物种。这种对语义关系的依赖可以构成对某些对抗性攻击的天然防御,因为针对已见类别设计的扰动可能无法有效地转移到未见类别。然而,ZSL 模型仍然依赖于对抗性样本可以利用的特征表示,例如图像中微小的像素级变化或被操纵的文本嵌入。
一个关键挑战在于,ZSL 中的对抗性攻击通常针对模型的语义对齐机制。例如,攻击者可能会巧妙地改变图像的特征,使其与正确的语义描述失配。假设一个 ZSL 模型使用词嵌入,基于“有条纹的”和“四条腿的”等共享属性将“斑马”(已见类别)的图像与“霍加狓”(未见类别)关联起来。对抗性样本可以修改图像以降低条纹的显着性,导致模型错误地将其与不同的未见类别(如“长颈鹿”)关联起来。类似地,在基于文本的 ZSL 中,对类别描述进行对抗性扰动(例如,在元数据中将“有条纹的”换成“有斑点的”)可能会误导模型。这些攻击突显了保护输入数据和用于泛化的语义空间的必要性。
为了减轻对抗性风险,ZSL 系统通常采用鲁棒特征提取和针对未见类别的对抗性训练等技术。例如,模型可以使用解耦表示法将不变特征(例如形状)与噪声分离,从而降低对对抗性扰动的敏感性。另一种方法是使用已见类别的合成对抗性样本增强训练数据,这可以通过加强语义对齐过程间接提高对未见类别的鲁棒性。然而,这些方法并非万无一失。开发者必须针对 FGSM(快速梯度符号法)或 PGD(投影梯度下降法)等适应跨类别场景的攻击,对 ZSL 模型进行严格测试。通过同时关注 ZSL 的视觉和语义组件,开发者可以构建平衡泛化能力和对抗性操纵抵抗能力的模型。