AI 中的常识推理是指系统使用人类通常通过经验获得的日常知识进行逻辑推理的能力。 与特定任务的 AI(例如下棋或翻译文本)不同,它涉及理解关于物理世界、社会规范和因果关系的未言明规则。 例如,知道“你不可能把沙发放在背包里”或者“如果下雨,人们可能会使用雨伞”需要常识推理。 这种能力对于 AI 在现实世界的场景中自然地交互至关重要,在这些场景中,明确的指令或标记的数据是不够的。
挑战在于对人类很少表达的隐含知识进行编码。 虽然现代 AI 模型擅长模式识别(例如,识别图像中的猫),但它们通常缺乏基本的推理能力。 例如,一个语言模型可能会生成一个句子,如“约翰把披萨放进烤箱,然后午睡了 3 个小时”,而没有意识到披萨会烧焦。 同样,指示机器人“拿牛奶”可能无法推断出牛奶很可能在冰箱里,或者应该检查保质期。 目前的方法试图通过整合结构化知识库(例如,ConceptNet)、符号逻辑或在更广泛的上下文中训练模型来解决这个问题,但这些方法仍然不完整。 与人类不同,AI 系统难以适应上下文——例如,理解“冷”可以根据上下文表示温度、疾病或人格特征。
开发人员正在探索混合架构来弥合这一差距。 例如,将神经网络与基于规则的系统相结合,允许模型在从数据中学习的同时参考预定义的常识规则。 在机器人技术中,系统可能会使用物理模拟器来“理解”将玻璃杯从桌子上推下来会打破它。 像 OpenAI 的 GPT-4 或 Google 的 PaLM 这样的项目试图通过海量训练数据隐式地捕捉常识,但它们仍然在极端情况下失败。 一个值得注意的测试是 Winograd Schema Challenge,其中 AI 必须解决有歧义的代词(例如,“奖杯放不进手提箱,因为 它 太小了”——“它”指的是奖杯还是手提箱?)。 解决此类问题需要整合空间推理和对象属性,而这正是 AI 仍然落后的领域。 这里的进展将使聊天机器人更可靠、自主系统更安全,以及 AI 能够处理无脚本的现实世界任务。