要让模型在其答案中提供来源或引用文档,开发人员可以使用显式提示,明确说明需要引用。 例如,像“解释神经网络的工作原理并引用你使用的研究论文”这样的查询直接指示模型包含参考文献。 结构化提示,如“答案格式:[回复] 来源:[文档 1、文档 2]”,也可以强制保持一致性。 此外,当使用检索增强模型(例如,访问外部数据库的模型)时,开发人员可以通过编程方式要求模型引用检索到的文档,方法是包含诸如“你的答案基于提供的文档并列出它们的 ID”之类的指令。 这些方法依赖于模型识别和遵循嵌入在提示中的引用指南的能力。
评估引用的一个主要挑战是验证其正确性。 例如,模型可能会准确地引用一篇真实的论文,但错误地表达其发现(例如,声称“文档 A 显示 X”,而该来源实际上说的是 Y)。 这需要手动对照原始材料进行交叉检查,这非常耗时。 另一个问题是相关性:引用可能存在,但不能直接支持该说法。 例如,模型可能在被要求提供有关 Transformer 架构的详细信息时,引用机器学习的总体概述。 自动检查(例如,关键字匹配)可以标记缺失的引用,但难以评估上下文相关性。 此外,模型可能会“捏造”听起来合理但虚假的来源,例如捏造论文标题或将声明归因于错误的作者。 检测这一点需要访问经过验证的来源数据库,但该数据库可能并非始终可用。
技术限制也使评估复杂化。 如果模型引用内部文档(例如,“文档 ID:123”),审核者需要访问引用的材料的精确版本才能确认准确性。 损坏的链接、过时的引用或格式不一致(例如,引用不存在的章节号)会增加开销。 可扩展性是另一个障碍:手动验证大量输出的引用是不切实际的,但自动化系统缺乏判断引用是否充分支持声明的细微差别。 例如,模型可能正确地引用了某个事实的三个来源,但只有一个来源就足够了,因此很难自动执行“充分性”检查。 开发人员必须在严格的验证与实际约束之间取得平衡,通常依靠抽样或混合人工-AI 工作流程来有效地审核引用。