针对神经网络的对抗攻击是故意设计的输入,旨在导致模型做出不正确的预测。 这些攻击通过对输入数据(如图像、文本或音频)应用细微的、通常是难以察觉的修改,来利用模型处理信息方式中的漏洞。 例如,添加到猫图像中的一个小的扰动可能导致分类器将其标记为狗,即使改变后的图像在人看来与原始图像相同。 这些扰动是使用算法计算的,该算法识别模型所依赖的模式,然后调整输入以误导它。 核心问题是,神经网络通常学习到的特征对于这些精心设计的变化并不鲁棒,即使模型在正常数据上表现良好。
攻击方法在复杂性和方法上各不相同。 一种常见的技术是快速梯度符号法 (FGSM),它使用模型在训练期间的梯度来确定如何有效地调整输入数据。 另一个例子是投影梯度下降 (PGD) 攻击,它迭代地改进扰动以最大化预测误差。 物理世界攻击证明了实际风险:策略性地放置在停止标志上的贴纸可能导致自动驾驶汽车的物体检测器将其错误分类为速度限制标志。 攻击还可以针对模型生命周期的不同阶段。 回避攻击是最常见的类型,发生在推理期间,而中毒攻击会破坏训练数据,从而在部署之前损害模型。 这些方法突出了攻击者如何利用特定弱点,无论是通过访问模型内部(白盒攻击)还是探测输入和输出(黑盒攻击)。
防御对抗攻击仍然是一个积极的挑战。 一种广泛使用的方法是对抗训练,其中模型在扰动的示例上进行训练以提高鲁棒性。 例如,可以使用通过 FGSM 改变的图像来微调分类器,以降低对这些扰动的敏感性。 其他防御措施包括输入预处理(如去噪滤波器或空间变换)以在推理之前删除对抗模式。 梯度掩蔽等技术旨在模糊模型的决策边界,使攻击者更难以制造有效的扰动。 然而,许多防御措施都被自适应攻击绕过,这突出了没有解决方案是普遍可靠的。 开发人员必须在鲁棒性和性能权衡之间取得平衡,并将对抗测试作为其部署管道的一部分。 了解这些攻击和防御对于构建值得信赖的系统至关重要,尤其是在医疗保健或自主系统等安全敏感领域。