为了评估 RAG 系统答案的连贯性和流畅性,而不仅仅是事实准确性,开发者可以关注结构一致性、语法正确性和以用户为中心的评估。连贯性指的是思想如何逻辑地连接和流畅表达,而流畅性则衡量文本的自然度和可读性。这些方面至关重要,因为即使是事实正确的答案,如果它们脱节或措辞笨拙,也可能无法令人满意。
对于连贯性,分析答案的逻辑结构。检查句子是否相互衔接,没有主题的突然转变或矛盾。诸如实体网格(跟踪主语和宾语在句子中的重现)之类的工具可以帮助可视化主题的一致性。例如,解释气候变化的答案应保持从原因到影响的清晰思路,使用“因此”或“此外”之类的短语连接思想。诸如文本连贯性模型(例如,使用句子嵌入之间的余弦相似度)之类的自动化方法可以量化相邻句子之间的关联程度。开发者还可以手动评估答案是否遵循可预测的叙述模式,例如问题-解决方案或原因-结果,这对于用户理解至关重要。
流畅性可以通过检查语法、句法和可读性来评估。诸如语言模型(例如 GPT-4)或 spaCy 等库可以标记语法错误或笨拙的措辞。例如,包含重复短语(“该过程很快,该过程很有效”)的 RAG 答案在流畅性方面得分会很低。诸如困惑度(语言模型对文本的“惊讶”程度)或 BLEU 分数(将生成文本与人工参考进行比较)等指标可以提供数值反馈。但是,这些自动化分数应与人工审查结合使用,因为它们可能会忽略诸如语气不自然等更细微的问题。例如,在面向用户的聊天机器人中使用过于专业术语的答案,在语法上是流畅的,但缺乏对话的清晰度。
最后,用户研究和基于任务的评估提供了实用的见解。要求测试用户评价答案的清晰度和易于理解程度。跟踪诸如理解答案所需的时间或后续任务的成功率(例如,“使用答案解决问题”)等指标。例如,如果 RAG 生成的软件故障排除指南能够帮助用户快速解决问题,则表明其具有很强的连贯性和流畅性。使用成对排名(例如,“哪个答案读起来更自然?”)将输出与人工撰写的回复进行比较,也可以发现差距。将自动化指标与人工反馈相结合,确保对答案如何传达信息进行平衡评估,而不仅仅是评估它传达了什么信息。