在固定计算预算下,决定投资更大的语言模型 (LLM) 还是更复杂的检索系统,关键因素是具体的应用场景、现有数据的质量以及泛化能力和精确度之间的权衡。 更大的 LLM 擅长需要广泛推理、创造力或处理模糊输入的任务,而检索系统擅长于精度依赖于访问特定的、结构化的或最新的外部数据的场景。 例如,如果客户支持聊天机器人需要提取准确的产品详细信息,那么它可能会从检索中获得更多好处,而创意写作工具将优先考虑强大的 LLM。 该决定取决于问题是否需要更深入的理解或更快地访问精确的信息。
为了评估这一点,首先测试基线性能。 测量 LLM 在没有检索的情况下完成任务的准确性,然后将其与配对检索系统的较小 LLM 进行比较。 例如,如果使用 13B 参数 LLM 的医学 QA 系统单独使用时达到 70% 的准确率,但在使用检索系统访问临床指南时跃升至 85%,那么检索可能值得优先考虑。 关键指标包括精确率(检索到的数据相关的频率)、召回率(找到多少相关数据)和延迟。 如果检索始终减少幻觉或提高事实正确性(例如减少法律文件分析中的错误),则可能证明投资是合理的。 相反,如果任务需要细致的推理(例如,总结技术研究),则更大的 LLM 可能会优于检索增强的较小模型。
最后,考虑可扩展性和维护。 检索系统需要持续更新其数据语料库和索引,而更大的 LLM 需要更多的前期训练和推理成本。 进行成本效益分析:如果将 LLM 从 7B 参数扩展到 70B 参数仅略微改善结果(例如,在基准测试中 +5%),但推理成本增加三倍,则将预算重新分配给检索可能会更好。 同样,如果延迟至关重要(例如,实时翻译),则检索繁重的方法可能会引入延迟。 使用 FAISS 等工具进行检索,并使用开源 LLM(例如,Llama 3)进行原型设计,以比较真实世界的性能。 如果检索在保持质量的同时将计算成本降低 40%,那么这就是一个明显的胜利;否则,优先考虑模型大小。