即使有自动化指标,人工评估对于 RAG(检索增强生成)输出仍然至关重要,因为仅凭指标无法完全捕捉生成回复的细微质量。BLEU、ROUGE 或 BERTScore 等自动化工具衡量词语重叠或与参考文本的语义相似性等表面特征,但无法评估特定上下文的准确性、逻辑连贯性或实际适用性。例如,RAG 输出可能由于关键词匹配而在指标上得分很高,但仍包含事实错误、不相关细节或理由不充分的推理。然而,人类可以评估答案是否真正解决了用户的意图、是否符合领域知识或是否避免了误导性声明——这些因素对于医疗建议或技术文档等应用至关重要。
人工评估者通常评估三个关键标准:正确性、理由质量和流畅性。正确性确保输出事实准确且上下文合适。例如,如果 RAG 系统回答“太阳能电池板使用核聚变发电”,人类可以立即发现错误(正确的过程是光伏转换),而自动化指标可能由于句法结构与参考匹配而忽略该错误。理由质量检查推理是否将检索到的证据与结论逻辑连接。例如,“经济下滑是因为[检索数据显示失业率上升]”是有效的,但如果数据显示的是 GDP 增长,人类就能发现不匹配。流畅性评估可读性和自然性,例如避免自动化指标可能不会惩罚的尴尬措辞或语法错误(例如,“这辆车的速度很高”与“这辆车超速了”)。
最后,人工评估在评估主观或领域特定要求方面增加了价值。例如,构建医疗 RAG 系统的开发者不仅需要答案正确,还需要谨慎(例如,对于症状相关查询,建议“咨询医生”)。同样,技术支持工具必须优先考虑清晰度而非华丽的语言。自动化指标可能将冗长、术语繁多的答案因语法正确而评为“流畅”,而人类可以判断其对非专业人士的可用性。通过将自动化指标与人工检查这些标准相结合,开发者可以确保 RAG 系统在效率和可靠性之间取得平衡,特别是在错误会产生真实后果的高风险场景中。