BLEU、ROUGE 和 METEOR 是用于评估 RAG(检索增强生成)等系统生成的文本质量的传统指标。每个指标都衡量生成的答案与参考文本或人类期望的接近程度的不同方面。虽然这些指标最初是为机器翻译或摘要等任务设计的,但它们可以通过量化重叠、内容覆盖率和语义相似性来适应评估 RAG 输出。
BLEU(双语评估辅助工具) 衡量 n 元语法的精确度,侧重于生成的文本和参考答案之间的精确词匹配。它计算输出中出现在参考中的单词或短语的数量,并对过短的答案进行惩罚。例如,如果 RAG 系统生成“法国的首都巴黎”,而参考是“巴黎是法国的首都”,BLEU 会奖励“巴黎”、“法国”和“首都”的重叠。但是,BLEU 忽略了词序和含义,使其更适合评估表面级别的准确性,而不是流畅性或连贯性。开发人员可以使用 BLEU 作为快速检查事实正确性的方法,在技术定义或命名实体等精确术语很重要的情况下。
ROUGE(面向召回的摘要评估辅助工具) 强调召回率 - 生成的文本中捕获了多少参考内容。它包括 ROUGE-N(n 元语法重叠)和 ROUGE-L(最长公共子序列)等变体。例如,如果参考答案声明“气候变化是由温室气体、森林砍伐和工业排放造成的”,那么像“工业排放和森林砍伐导致气候变化”这样的 RAG 生成的答案会在 ROUGE-L 上得分很高,因为它共享短语“气候变化”和关键术语的部分重叠。ROUGE 适用于评估是否包含来自源材料(例如,RAG 中检索到的文档)的关键信息,使其与评估问题解答或摘要等任务的全面性相关。
METEOR(通过显式排序评估翻译的指标) 在结合同义词匹配和词干提取的同时,平衡了精确度和召回率。例如,如果生成的答案使用“automobile”代替“car”,如果“car”出现在参考中,METEOR 会将其识别为匹配项。它还考虑了句子结构,惩罚不连贯的措辞。这使得 METEOR 在评估语义相似性和流畅性方面比 BLEU 或 ROUGE 更强大。在 RAG 系统中,答案可能会改写检索到的内容,METEOR 帮助衡量输出自然而连贯地传达预期含义的程度。但是,它需要语言资源(例如,同义词数据库),这可能会限制其在某些语言或领域的适用性。
总之,BLEU 检查精确的单词重叠,ROUGE 确保包含关键内容,METEOR 评估语义和句法质量。虽然没有一个完全捕捉到上下文感知的理解,但它们为开发人员提供了可量化的基线,以便将 RAG 输出与预期结果进行比较。