处理文本到语音 (TTS) 质量评估中的主观差异需要一种结构化的方法,以平衡个人偏好和一致的评估标准。主观差异的产生是因为听众根据他们的背景、语言熟练程度或文化背景,以不同的方式感知自然度、清晰度和表现力等质量。 为了解决这个问题,评估通常结合标准化方法、多样化的听众群体和客观指标,以减少偏差并提高可靠性。
首先,标准化的评估框架至关重要。 例如,平均意见得分 (MOS) 测试要求听众对 TTS 输出的特定属性(例如自然度或可理解性)进行数字评分(例如,1-5)。 清晰的指南确保听众关注相同的标准,例如对发音错误或韵律一致性进行评分。 此外,成对比较测试(听众在两个 TTS 输出之间进行选择)通过强制进行相对判断来帮助减少歧义。 例如,开发人员可能会将新模型与基线进行比较,询问哪个听起来更像人声。 这些方法将主观反馈结构化为可量化的数据,从而更容易识别趋势,即使存在个体差异。
其次,招募多样化且具有代表性的评估人员群体可以最大限度地减少偏差。 例如,包括母语和非母语人士、不同年龄段的人以及具有不同技术背景的人,确保反馈反映真实世界的使用情况。 培训评估人员识别特定的伪像(例如,机器人音调、错误发音)也可以提高一致性。 在一个案例中,针对美国英语优化的 TTS 系统可能会与来自多个英语地区的听众一起进行测试,以考虑方言偏好。 亚马逊 Mechanical Turk 等众包平台可以扩展此过程,但需要质量检查(例如,注意力测试问题)来过滤不可靠的响应。 这种方法通过平均个人异常值来平衡主观性。
最后,将主观评估与客观指标相结合可以提供更完整的画面。 例如,词错误率 (WER) 衡量转录准确性,而韵律指标(例如,音高方差)量化表现力。 这些指标充当护栏,确保主观评级与技术性能保持一致。 例如,WER 低但 MOS 分数差的 TTS 系统可能需要改进语调而不是发音。 混合评估框架(如 Blizzard Challenge)使用这种双重方法来公平地对系统进行基准测试。 通过对来自多个来源的数据进行三角测量,开发人员可以隔离由主观偏好与技术限制引起的问题,从而实现更有针对性的改进。