在检索增强生成 (RAG) 设置中使用较小或能力较弱的 LLM 时,与大型模型相比,提示工程需要更明确的结构和更细粒度的指令。较小的 LLM 上下文理解能力有限,推理能力较弱,因此提示需要通过将任务分解为更简单的步骤、严格控制检索参数和减少歧义来弥补。相比之下,大型 LLM 可以处理开放式提示并推断缺失的细节,从而允许更灵活的指令。
明确的任务分解 较小的 LLM 需要明确区分检索和生成阶段的提示。例如,RAG 提示可能首先指示模型“列出数据库中关于气候变化政策的前 3 篇文档”,然后才要求其“总结每篇文档并比较其关键点”。如果没有这种分步指导,较小的模型可能会混淆检索和合成,导致输出不完整或不相关。相比之下,大型 LLM 可以处理组合指令,例如“使用提供的关于气候变化的文档回答问题”,它们依赖于其固有的能力来解析上下文和优先处理信息。例如,即使没有明确的指示,GPT-4 也可能正确地推断出它应该先从检索到的文档中识别相关部分,然后再生成答案。
更严格的检索约束 较小的模型得益于缩小检索范围的提示,以避免超出其处理能力。提示可以指定过滤器,例如“仅搜索 2020-2023 年的学术论文”或“排除评论文章”,以防止不相关的数据混淆模型。相比之下,大型 LLM 可以处理更广泛的搜索(例如,“查找所有相关来源”)并仍然有效地过滤噪音。例如,较小的 LLM 可能无法理解技术术语,如“transformer 架构”,如果没有明确的提示,例如“侧重于电网变压器,而不是 AI 模型”,而大型模型通常通过上下文来消除此类术语的歧义。
输出格式和错误处理 较小的 LLM 需要明确的格式规则,例如“以带日期和来源的列表形式呈现结果”,以保持一致性。它们可能还需要回退指令,例如“如果没有文档涉及可再生能源成本,则说明‘未找到数据’”,以避免幻觉。大型模型可以适应隐含的格式,并在没有明确指导的情况下优雅地处理缺失数据。例如,使用小型 LLM 的开发者可能需要添加“如果存在冲突数据,分别列出每个来源的说法”,而 GPT-4 可能会在没有提示的情况下自动识别和调和差异。
本质上,在 RAG 系统中针对小型 LLM 的提示工程需要细致的框架来弥补其局限性,而大型模型可以通过更高级别的指导有效运行。这种差异强调了根据模型能力调整提示复杂性以优化准确性和相关性的重要性。