为了比较文本到语音 (TTS) 引擎,开发者会结合主观评估、客观指标和标准化数据集。主观评估涉及人类听众对自然度、清晰度和情感表达等质量进行评分。例如,平均意见得分 (MOS) 是一种广泛使用的主观基准,参与者在量表(例如 1-5)上对合成语音进行评分。另一方面,客观指标以算法方式量化技术方面。常见指标包括用于评估频谱准确性的 梅尔倒谱失真 (MCD),用于衡量 ASR 系统转录输出准确性的 词错误率 (WER),以及用于波形相似性的 均方根误差 (RMSE)。这些指标有助于识别特定的优势或劣势,例如发音错误或音频失真。
标准化数据集和挑战为比较提供了统一的基线。例如,Blizzard 挑战赛 和 语音转换挑战赛 提供了共享数据集(例如,LJSpeech 或 VCTK 语料库)和预定义的评估协议。这些竞赛通常结合了主观和客观指标,鼓励开发者优化质量和技术性能。另一个例子是 CMU Arctic 数据集,它包括多个说话者的录音,用于通过诸如 说话者编码器余弦相似度 (比较合成语音和真实语音的嵌入)等指标来衡量说话者相似性。这些数据集通过控制录音条件或文本内容等变量来确保公平的比较。
运行时性能指标对于实际部署至关重要。开发者通常测量 推理延迟 (生成音频的时间)、实时因子 (RTF:生成时间除以音频时长)和 内存使用量。例如,RTF 为 0.5 的 TTS 引擎可以在 0.5 秒内生成 1 秒的音频,使其适合实时应用程序。 ESPnet-TTS 或 TensorFlowTTS 等工具包含用于这些指标的内置评估脚本。此外,通常使用 Apache Bench 或 Locust 等框架测试跨平台兼容性(例如,移动设备与服务器)和负载下的可扩展性(每秒请求数)。通过结合这些基准,开发者可以全面评估 TTS 系统的质量和运行效率。