底层的大型语言模型 (LLM) 在决定其产生幻觉(即与事实不符或输入数据不支持的输出)的倾向方面起着关键作用。这受到模型的训练数据、架构和解码策略等因素的影响。例如,在海量未整理数据集上训练的模型可能会无意中学到偏见或不准确信息,从而生成听起来 plausible 但实际上错误的信息。上下文保留能力较弱的架构(例如,较小的模型或注意力机制有限的模型)可能难以与输入保持一致,尤其是在处理较长或复杂查询时。高温采样或贪婪搜索等解码方法也可能通过优先考虑流畅性而非准确性来放大幻觉。例如,如果模型的训练数据包含不可靠的来源,或者缺乏根据输入验证主张的机制,它可能会编造一个虚构的研究来回答医学问题。
为了使用相同的检索数据评估不同 LLM 的基础性能,开发者可以结合使用自动化指标和人工评估。首先,定义一个基准数据集,其中查询与经过验证、上下文特定的检索数据配对(例如,一组问题和知识库中的相应段落)。运行每个 LLM 基于这些数据生成响应,然后测量事实一致性(例如,使用 BERTScore 或 QuestEval 等工具将生成的文本与源文本进行比较)和幻觉率(统计不受支持的主张)等指标。例如,如果一个模型声称“研究 X 发现 Y”,而检索数据只提及“研究 X 观察到 Z”,这就算作幻觉。此外,人工评估人员可以对输出的连贯性、相关性以及对源材料的遵守程度进行评分。使用模糊或不完整的检索数据进行压力测试可以揭示模型如何处理不确定性——例如,它们是否过度推断或默认生成通用语句。
提高基础性能通常需要模型特定的调整和评估优化。例如,通过人类反馈强化学习 (RLHF) 进行微调的模型或在强调引用的数据集(例如,“始终引用提供的来源”)上训练的模型可能会表现出更少的幻觉。开发者还可以比较不同的架构:像 GPT-4 这样的模型在复杂的接地任务中可能优于较小的变体,因为它能够解析更长的上下文,而像 RETRO 这样的检索增强模型可能通过设计而表现出色。为确保公平评估,使用受控输入(例如,跨测试使用相同的提示和检索上下文)并跟踪边缘情况,例如模型如何处理检索数据中的冲突信息。例如,如果两个来源相互矛盾,模型是承认冲突还是武断地选择一方?通过系统地分析这些行为,开发者可以确定哪些 LLM 在创造性和事实可靠性之间为其特定用例实现了最佳平衡。