数据增强通过在训练期间让模型接触更广泛的输入变体来提高对对抗性攻击的鲁棒性,这有助于模型更好地泛化到意外或被操纵的输入。对抗性攻击通常利用数据中微小、精心设计的扰动来导致模型错误分类输入。通过使用噪声、旋转或扭曲等转换增强训练数据,模型学会专注于更具鲁棒性的特征,而不是过度拟合特定模式。例如,在训练期间向图像添加随机噪声可以降低模型对微小像素级别变化的敏感性——这正是对抗性攻击使用的那种更改。这种更广泛的接触使得攻击者更难找到可靠地欺骗模型的输入。
数据增强的一个关键作用是减少对训练数据特定特征的过拟合。在有限数据集上训练的模型经常会记住噪声或不相关的细节,这使得它们容易受到引入细微更改的对抗性示例的影响。裁剪、翻转或调整亮度等增强技术迫使模型依赖于不变特征(例如,对象形状),而不是脆弱的模式(例如,精确的像素值)。例如,在增强的面部识别数据上训练的模型可能会学会根据结构特征而不是光照条件或背景细节来识别人脸。这种更广泛的特征感知使得对抗性扰动效果降低,因为模型的决策是基于更稳定的属性。
另一个好处来自于对抗训练,这是一种专门的数据增强形式,其中会生成对抗性示例并将其包含在训练集中。通过明确地在这种被操纵的输入上进行训练,模型学会识别和抵抗它们。例如,在训练期间使用 Fast Gradient Sign Method (FGSM) 等技术创建对抗性示例,可以教会模型忽略微小的恶意扰动。然而,这种方法需要在运行时生成对抗性示例,这可能计算量很大。将传统增强(例如,几何变换)与对抗训练相结合通常会产生最佳结果,因为它既解决了普遍的过拟合问题,也解决了特定的攻击向量。虽然这不是一个完整的防御,但增强通过多样化模型的经验显著提高了构建成功的对抗性攻击的难度。