大型语言模型 (LLM) 理解上下文的方式与人类不同。 人类通过生活经验、情感和对意图的意识来解释上下文,而 LLM 通过识别文本中的统计模式来处理上下文。 例如,当人类阅读对话时,他们会推断出未说出的含义、文化细微差别和情感基调。 然而,LLM 分析词元(单词或字符)序列,以根据其训练数据预测可能的延续。 虽然这允许 LLM 生成连贯且上下文相关的响应,但它缺乏人类理解的深度,而人类的理解根植于意识和现实世界的理解。
LLM 通过使用注意力层和词元窗口等机制来处理上下文。 注意力层允许模型权衡文本序列中不同词的重要性,使它们能够专注于提示的相关部分。 例如,在像“用户:这里太冷了。 助手:要我调节恒温器吗?”这样的对话中,模型将“太冷”与温度控制联系起来,因为这些关联经常出现在训练数据中。 然而,LLM 具有固定的词元限制(例如,4,000–32,000 个词元),因此它们无法保留超出该范围的信息。 如果对话超过限制,则较早的上下文将被丢弃,除非明确重新引用。 这与人类形成对比,人类即使在冗长的讨论中也能回忆起更广泛的上下文,整合先前的知识和情境意识。
对于开发人员来说,这意味着设计系统来弥补 LLM 的局限性。 例如,在构建聊天机器人时,您可以从外部跟踪关键上下文点(如用户偏好),并根据需要将其注入到提示中。 如果用户在对话的早期提到过敏,将该详细信息存储在数据库中并将其附加到以后的查询中,可以确保 LLM 始终了解它。 此外,将复杂的任务分解为更小的步骤有助于避免超出模型的词元窗口。 测试边缘案例——如模棱两可的引用(“我需要昨天的文件”)——至关重要,因为如果没有明确的提示,LLM 可能会遇到困难。 虽然 LLM 是强大的工具,但它们的“上下文感知”是建立在模式匹配之上的模拟,而不是真正的理解。