BERTScore 是一种基于嵌入的指标,用于通过利用 BERT 等模型的上下文嵌入来评估文本之间的相似度。与 BLEU 或 ROUGE 等依赖于精确词匹配或 n-gram 重叠的传统指标不同,BERTScore 通过测量词元或句子嵌入的语义相似度来比较文本。其他基于嵌入的指标包括使用最优传输对齐嵌入的 MoverScore,以及计算句子级相似度的 Sentence-BERT。这些方法捕捉更深层的语义关系,对于释义或表达方式多样化的任务非常有用。
基于嵌入的指标的工作原理是将文本使用预训练语言模型转换为高维向量。例如,BERTScore 计算生成文本和参考文本的词元级嵌入,然后根据这些嵌入之间的余弦相似度计算准确率、召回率和 F1 值。如果生成的答案使用了同义词或重新表达了概念(例如,“canine”而不是“dog”),即使表面词汇不同,BERTScore 也能识别其语义等价性。同样,Sentence-BERT 为每个句子生成一个单独的嵌入,从而能够有效地比较整个句子或段落。这些方法在评估摘要或问答等任务时特别有效,因为在这些任务中,意义比精确的措辞更重要。
基于嵌入的指标有助于评估答案的相似度,但也存在权衡。优点包括在语义任务上与人类判断更好地对齐,以及对释义具有鲁棒性。例如,与参考文本“Photosynthesis transforms solar energy”(光合作用转化太阳能)相比,生成答案“The process converts sunlight to energy”(该过程将阳光转化为能量)的得分会高于 BLEU,因为 BLEU 可能无法捕捉到这种联系。然而,这些指标需要计算资源来生成嵌入,并且可能并非总是与人工评估完美相关。此外,它们取决于底层模型的质量——例如,BERTScore 的有效性与 BERT 的训练数据和架构有关。开发人员应考虑将基于嵌入的指标与传统方法和人工评估相结合,以进行平衡评估,特别是在事实核查或法律文件分析等关键应用中。