当自动驾驶汽车遇到对抗性图像时,它们的感知系统(依赖于机器学习模型)可能会错误地解释视觉数据,从而导致错误的决策。对抗性图像是故意修改的输入,旨在混淆 AI 模型,通常是通过人类无法察觉的细微像素变化来实现的。例如,一个被贴纸或油漆修改过的停车标志可能会被错误地分类为限速标志,或者被图案扭曲的车道线可能会导致汽车偏离车道。这些漏洞的出现是因为机器学习模型,尤其是神经网络,学习的是统计模式,而不是真正的语义理解,这使得它们容易受到精心设计的利用这些模式的输入的影响。
核心问题源于这些模型处理数据的方式。对抗性攻击以导致模型产生高置信度错误预测的方式操纵输入特征(如像素值)。在自动驾驶系统中,这可能会影响物体检测、交通标志识别或路径规划。例如,研究人员已经证明,在“停止”标志上添加特定的噪声模式可以欺骗模型,使其以 95% 的置信度将其分类为“让行”标志。物理世界的攻击尤其令人担忧,因为它们不需要直接访问汽车的软件——恶意行为者可以将修改过的贴纸放置在真实世界的物体上。虽然有些系统使用传感器融合(将摄像头与激光雷达或雷达相结合)来交叉验证数据,但对基于摄像头的感知的对抗性攻击仍然是一种风险,因为摄像头是读取道路标志等任务的主要传感器。
开发者可以通过对抗训练来减轻这些风险,即在训练期间将模型暴露于对抗性示例,以提高鲁棒性。例如,在干净和对抗性修改过的图像上训练交通标志分类器有助于模型识别被操纵的模式。此外,预处理输入(例如,去噪过滤器)或集成方法(使用多个模型对预测进行投票)可以降低敏感性。但是,没有万无一失的解决方案。现实世界的条件——如光照、天气或相机角度——增加了复杂性,使得难以预测所有可能的对抗性场景。解决这个问题需要在模拟和真实环境中进行持续测试,并与整个行业合作,分享攻击模式和防御措施。为了使自动驾驶技术安全地发展,提高模型对抗对抗性输入的弹性必须仍然是感知系统开发人员的首要任务。