人工智能推理中的脆弱性指的是系统在特定、受控条件下表现良好,但在面对微小变化或边缘情况时却意外失败。发生这种情况的原因是人工智能模型,尤其是基于机器学习的模型,通常依赖于训练数据中的模式,而不是真正的理解。当输入甚至略微偏离模型以前所见的内容时,其性能会急剧下降。例如,在高质量照片上训练的图像分类器可能会错误识别模糊或旋转图像中的对象。这种脆弱性源于泛化能力的局限性——模型没有学习任务的底层原理,而只是表面级别的相关性。
导致脆弱性的一个关键原因是过拟合,即模型记忆训练数据而不是学习鲁棒的特征。考虑一下自动驾驶汽车的物体检测器,它在白天完美运行,但在黄昏时失败,因为训练数据中没有充分表示光照变化。同样,语言模型可以处理语法完美的句子,但在处理拼写错误或区域方言时会遇到困难。这些失败突出了人工智能系统运行的“安全区”可能有多窄。即使是像大型语言模型 (LLM) 这样的最先进的模型也表现出这一点——它们在大多数情况下可能会生成连贯的文本,但在面对不常见的措辞或复杂的逻辑难题时会产生无意义或矛盾的输出。
开发人员通过数据增强、对抗训练和混合架构等技术来解决脆弱性问题。对于图像模型,向训练数据添加噪声、旋转或合成光照变化可以提高鲁棒性。在 NLP 中,使用包含有意错误或不同方言的文本训练模型有助于它们处理真实世界的输入。一些团队将神经网络与基于规则的系统结合起来——例如,使用语法检查器来预处理语言模型的输入。然而,这些解决方案通常是部分的且特定于领域的。测试仍然至关重要:通过边缘情况对模型进行压力测试并监控实际性能有助于识别脆弱性。虽然正在取得进展,但创建能够在不可预测的情况下灵活推理的人工智能系统仍然是该领域一个尚未解决的挑战。