要设计一种惩罚回答中无事实依据内容的指标,我们可以创建一个类似精确率的度量,评估回答中有多少内容得到了提供的源文档的支持。核心思想是将回答分解为可验证的单元(例如,陈述、事实或语句),并将每个单元与文档进行比较,以确定其是否得到证实。例如,如果一个回答声称“公司第二季度的收入增长了 10%”,该指标将检查源材料中是否存在这一声称。最终分数将代表受支持内容的比例,对不受支持的断言进行惩罚。
实际实现可能包括两个主要步骤。首先,使用自然语言处理(NLP)技术,如句子分割或子句检测,将回答分割成更小的单元。对于每个单元,使用语义相似度模型(例如,BERT 等句子转换器)将其与文档段落进行比较。如果相似度得分超过预定义的阈值,则认为该陈述是基于事实的(grounded)。或者,可以使用训练好的分类器预测陈述是否受支持,该分类器使用人工标注的数据,其中标注者将陈述标记为基于事实的或无事实依据的。然后,该指标的分数计算为 (受支持的陈述数)/(总陈述数)。例如,如果一个回答包含 10 个陈述,其中 7 个受支持,则分数为 0.7。这种方法类似于传统的精确率指标,但侧重于事实依据而非普遍相关性。
挑战包括处理意译、部分匹配和隐含推理。例如,回答可能转述文档中的陈述(“收入增加了 10%” vs. “第二季度收入增长了 10%”)或推断出文档中未明确说明的结论。为了解决这个问题,相似度阈值必须在严格性和灵活性之间取得平衡,可能使用上下文嵌入而不是关键词匹配。此外,该指标可以纳入置信度得分——对 слабо 受支持的陈述赋予部分分数——而不是简单的二元是/否判断。开发者还可以根据无事实依据内容的严重程度(例如,轻微不准确 vs. 完全虚构的陈述)对惩罚进行加权。使用人工评审的基准进行测试有助于校准阈值并验证结果。通过迭代这些组件,该指标可以提供对回答事实依据的稳健度量,同时保持对不同领域的适应性。