句子 Transformer 的评估主要通过标准化基准测试、内在指标和下游任务来进行,以衡量其嵌入(embedding)捕获句子间语义相似性的效果。最常用的方法是使用专门为语义文本相似性(STS)设计的各种数据集,这些数据集中的句子对由人工标注了相似度得分。模型为每个句子生成嵌入,然后使用 Pearson 或 Spearman 等相关性指标比较嵌入之间的余弦相似度与人工评分。例如,STS Benchmark (STS-B) 数据集包含句子对(如:“一个男人正在弹吉他” 对比 “一位音乐家正在表演”),并按 0-5 的等级评分。模型相似度得分与人工判断之间的高度相关性表明了更好的性能。SICK-R 或 MRPC 等其他数据集也用于测试模型在不同句子结构和领域上的鲁棒性。
另一种关键的评估方法涉及检索和分类任务。在检索场景中,测试模型在大规模语料库中找到语义相似句子的能力。例如,MS MARCO 数据集评估嵌入为查询检索相关段落的效果。Recall@k(在前 k 个检索结果中正确结果出现的频率)或平均精度均值(MAP)等指标量化了有效性。对于分类,嵌入用作任务的输入特征,如复述检测(例如 Quora Question Pairs)或意图识别。高准确率表明嵌入保留了语义意义。使用 Adjusted Rand Index 等指标评估的聚类任务也测试嵌入是否将意义相似的句子分组(例如,按主题对新闻文章进行聚类)。
最后,还会测试跨领域和跨语言泛化能力,以确保模型不会过度拟合特定数据集。在英语 STS 数据上训练的模型可以在非英语数据集(如跨语言自然语言推理 XNLI)上进行评估,以评估其多语言能力。消融研究(移除池化策略或损失函数等组件)有助于确定哪些部分对性能至关重要。例如,将均值池化替换为最大池化可能会降低性能,这突显了该设计选择的重要性。这些评估确保模型的有效性不限于狭窄场景,并且可以在语言、领域和应用之间泛化。