为了构建一个用于评估语言模型幻觉的数据集,其结构应侧重于测试系统识别何时缺乏足够信息来回答问题的能力。数据集必须包含三个核心组件:**有明确答案的问题**(用于验证准确性)、**知识库中无答案的问题**(用于测试拒绝回答的能力)以及**模糊或不明确的问题**(用于检查不确定性的传达方式)。每个问题都应配有真实标签元数据,表明答案是否存在、正确答案(如果适用)以及所使用的上下文或知识库。这种设置确保了模型的行为可以被客观地衡量。
数据集应平衡可回答和不可回答的问题,以避免偏差。例如,包含像“法国的首都是什么?”(可回答)这样的直截了当的事实查询,以及像“2050年火星人口是多少?”(不可回答,因为没有可靠数据)这样的问题。模糊情况,例如“谁获得了2022年诺贝尔物理学奖?”(如果在2022年知识截断之后则是可回答的),可以测试模型如何处理时间约束。为了确保真实性,不可回答的问题应模仿现实世界场景——例如,“[知识库中没有的某个不常见药物]的副作用是什么?”——并避免使用合成或过于做作的例子。元数据应明确标记答案是存在、部分存在还是不存在,并指定知识边界(例如,“数据截至2023年有效”)。
验证和指标至关重要。对于可回答的问题,衡量准确率和召回率,以确保模型回答正确。对于不可回答的问题,跟踪拒绝回答率(模型回答“我不知道”的频率)和误报(不正确的答案)。包括冲突信息(例如,来源混杂的“咖啡对你有益吗?”)等边缘情况,以测试模型如何处理不确定性。人工评审员应通过确认不可回答问题确实缺乏支持数据来验证数据集的准确性。通过在数据集上测试模型、优化问题清晰度以及根据性能差距调整问题类型的平衡来迭代改进。这种结构化方法确保评估反映现实世界的可靠性,并最大程度地减少对无根据回应的过度自信。