RAG 流程中使用的模型大小和类型直接影响检索器和生成器组件的配置,以及准确性、效率和资源使用之间的权衡。像 GPT-3 或 GPT-4 这样的大型模型可以更有效地处理更长的上下文窗口并综合来自多个文档的信息,而较小的开源模型(例如,LLaMA-7B 或 Mistral-7B)由于上下文限制和较弱的推理能力,需要对检索到的内容进行更严格的优化。这会影响文档检索策略、预处理步骤和评估指标。
模型容量和上下文处理 大型模型通常具有更长的上下文窗口(例如,GPT-4 的 16k-128k tokens),并且可以保留更多检索到的文档而无需截断。例如,GPT-3.5 的 16k token 窗口允许将 5-10 个冗长的文档直接输入到 prompt 中,而 4k token 的 LLaMA 模型可能只能处理 2-3 个压缩的文档。较小的模型可能需要文档摘要或过滤,以避免超过上下文限制。此外,较大的模型可以更好地处理嘈杂或冗余信息 - 如果检索器获取了 10 个部分相关的文档,GPT-4 仍然可以提取关键见解,而 7B 参数模型可能会产生不一致的答案。这意味着较小模型的流程通常包括一个重新排序步骤,以在生成之前优先考虑最相关的文档。
检索器配置和优化 检索器的设计取决于生成器补偿检索错误的能力。对于较小的模型,检索器必须实现更高的精度,以最大限度地减少不相关的内容。例如,使用 LLaMA-7B 的流程可能会将密集向量搜索(例如,使用 FAISS)与交叉编码器重新排序器相结合,以确保前 3 个文档高度相关。相比之下,GPT-4 流程可以跳过重新排序,仅通过 BM25 关键字搜索检索 10 个文档,依靠模型的鲁棒性来抵抗噪声。较小的模型还可以从迭代检索中受益——使用改进的搜索词多次查询——以补偿较弱的推理能力。这会增加延迟,但会提高准确性,从而在响应时间和答案质量之间形成可衡量的权衡。
用于评估差异的指标 关键指标包括答案准确性(通过 TruthfulQA 等基准测试或自定义人工评估)、检索精确率/召回率和运营成本。例如,GPT-4 流程可能以 8 个文档实现 85% 的准确率,而 LLaMA-7B 即使使用 12 个文档,由于上下文截断,也只能达到 75% 的准确率。当增加文档计数超过其上下文窗口时,较小的模型可能会显示出收益递减,这可以通过绘制准确率与检索到的文档计数来衡量。延迟是另一个关键指标:GPT-4 的 API 成本和较慢的响应时间(例如,每次调用 5 秒)可能会使具有 2 秒本地推理的 LLaMA-7B 流程更受欢迎,尽管准确率较低。开发人员还应跟踪 GPU 内存使用情况 - 像 Phi-3 这样的小模型可以在消费级硬件上运行,而较大的模型则需要昂贵的基础设施。这些指标可帮助团队根据用例需求决定是优先考虑模型能力还是成本效益。