开放式问答及其与 RAG 的关系 开放式问答 (QA) 允许模型访问外部信息来源(如文档或数据库)来回答问题。与封闭式问答不同,封闭式问答模型仅依赖于预训练知识,而开放式系统可以在推理过程中检索和参考特定数据。例如,医学问答系统可能会搜索研究论文以回答有关治疗指南的问题。当答案取决于在训练期间未完全记住的最新或特定领域的信息时,此方法非常有用。
检索增强生成 (RAG) 是开放式问答的一个具体实现。RAG 结合了两个步骤:检索相关文档和使用该上下文生成答案。例如,基于 RAG 的聊天机器人可能会首先查询公司的内部文档以查找策略,然后从这些结果中综合出一个答案。关键的联系是,RAG 明确地分离了检索(访问外部数据)和生成(产生最终答案),使其成为处理开放式任务的一种结构化方式。两者都旨在通过将答案建立在外部证据的基础上,从而提高准确性,但 RAG 使该过程更加规范。
在开放式与封闭式环境下评估 LLM 在封闭式环境中,评估侧重于模型从其训练数据中回忆事实知识的能力。诸如琐事问题(例如,“第一次登月是在哪一年?”)的准确性之类的指标可以衡量记忆能力。如果模型回答不正确,则表明其训练数据或记忆存在差距。
在开放式环境中,评估会转移到评估模型检索和使用外部信息的程度。例如,如果模型通过引用过时的研究来回答有关 COVID-19 变体的问题,则检索组件失败。此处的指标包括检索精度(例如,有多少检索到的文档是相关的)和答案的忠实度(生成的答案是否正确反映了来源)。此外,开放式评估必须测试不存在相关数据的场景 - 模型是否承认不确定性或产生幻觉?
评估设计中的实际差异 封闭式基准通常使用静态数据集(例如,用于 QA 的 SQuAD),其中答案已知存在于训练语料库中。开放式评估需要与外部语料库配对的动态数据集。例如,测试可能会提供一个问题和一个大型文档集,检查模型是否可以查明正确的段落并生成连贯的答案。
另一个区别是错误分析。在封闭式中,错误可能会提示使用更多数据进行再训练。在开放式中,错误可能源于检索不佳(例如,错误的搜索算法)或有缺陷的综合(例如,误解检索到的表格)。开发人员可能会单独测试检索 - 例如,通过衡量 ground-truth 来源是否在前 5 个检索到的文档中 - 然后再评估生成器使用它的能力。这种分层方法可以隔离开放式管道中的弱点。