在大规模语言模型 (LLM) 上,通过检索数据进行微调——例如使用文档回答问题的例子——可以通过教会模型更好地将其输出与源材料的结构、风格和内容对齐,从而提高性能。 例如,如果模型在从特定文档中提取的问题和答案对上进行训练,它将学会识别诸如如何提取相关细节、转述技术信息或引用文档的章节等模式。 此过程有助于模型生成在上下文中更准确且与所提供数据一致的响应。 例如,在医学研究论文上微调的模型可能会学习在回答问题时引用研究方法或统计结果,从而减少编造未经支持的主张的可能性。
为了验证改进,您可以首先使用基于相同文档的问题-答案对的测试数据集,将微调模型的性能与基线(例如,原始 LLM)进行比较。诸如**答案准确性**(响应是否与经过验证的答案匹配)、**精确度**(响应有多少直接受源支持)和**相关性**(答案是否完全解决了问题)等指标可以量化。例如,在客户支持场景中,您可以衡量微调模型从知识库中正确提取故障排除步骤的频率与基线相比。此外,人工评估员可以根据清晰度、事实正确性和遵守源材料等标准对响应进行评分,从而提供定性反馈以补充数值指标。
实际考虑因素包括确保用于微调的检索数据能够代表模型将面临的真实场景。 例如,如果目标是构建法律文件助手,则训练数据应包括法律查询与法规或判例法引文配对的各种示例。 在验证期间,您可能还需要测试模型处理边缘情况的能力,例如含糊不清的问题或包含冲突信息的文档。 部署后的持续监控(跟踪用户反馈或生产中的错误率)可以进一步验证长期改进。 A/B 测试等工具(其中一个用户组与微调模型交互,另一个用户组与基线交互)可以提供实际应用中性能提升的具体证据。