评估定制的文本到语音 (TTS) 输出需要主观和客观指标的结合,以评估质量、自然度和与用例要求的对齐程度。 三个关键的指标类别包括人工感知评估、语音质量测量和特定任务的性能指标。 每个指标都针对 TTS 输出的不同方面,从基本的可理解性到细致入微的表达。
人工感知评估对于评估合成语音对听众来说听起来多么自然和悦耳至关重要。 最常见的方法是平均意见得分 (MOS),其中参与者根据自然度、清晰度和情感表达程度对语音样本进行评分(例如,1-5)。 例如,专为有声读物设计的定制 TTS 系统可能会根据其表达不同角色声音的能力进行评分。 另一种方法是比较 MOS (CMOS),其中听众直接比较两个系统(例如,基线模型与自定义模型)。 这些测试非常耗时,但可以直接深入了解用户的偏好。 开发人员应设计包含不同听众群体的评估,以避免偏差,尤其是对于针对特定口音或方言的系统。
客观语音质量指标可自动执行评估的各个方面。 梅尔倒谱失真 (MCD) 测量合成音频和参考音频之间的频谱差异,可用于衡量声学准确性。 词错误率 (WER) 通过自动语音识别 (ASR) 检查转录准确性,确保 TTS 输出是可理解的。 对于韵律,诸如 F0(音高)轮廓分析 或 时长建模指标 等工具可量化系统与自然节奏和重音模式的匹配程度。 例如,用于紧急警报的 TTS 系统必须优先考虑低 WER 和一致的音高强调。 但是,这些指标无法完全捕捉情感基调等主观质量,因此最好与人工评估一起使用。
特定任务的指标侧重于与系统预期用途的对齐。 对于语音克隆,说话人相似度得分(例如,使用说话人嵌入余弦相似度)衡量输出与目标语音的匹配程度。 在实时应用中,延迟(生成音频的时间)和计算效率(GPU/CPU 使用率)至关重要。 例如,对话式 AI 代理可能需要低于 300 毫秒的延迟,以避免尴尬的停顿。 开发人员还应跟踪 定制准确性 — 系统对用户提供的参数(如语速或情感)的适应程度。 诸如 A/B 测试框架等工具可以比较不同迭代的指标,确保改进与用户需求保持一致。 结合这些方法可以确保对生产中的 TTS 系统进行全面的评估。