TTS 质量评估常用指标 文本转语音(TTS)系统采用主观和客观混合的评估指标,以评估合成语音的自然度、清晰度和情感表达能力。这些指标有助于开发者识别 TTS 模型的优缺点,确保改进方向与人类感知和技术基准一致。下面,我们将探讨三种主要的评估方法类别:主观听力测试、客观信号测量和自动化算法评分。
主观听力测试 主观评估涉及人类听众对合成语音在自然度、清晰度和情感表现力等方面的评分。最常用的方法是平均意见得分(MOS),听众根据一定等级(例如 1-5 分)对语音样本进行评分。例如,MOS 评分为 4.0 可能表示接近人类的语音质量,而 2.5 则表明明显的失真或人工痕迹。另一种方法是比较平均意见得分(CMOS),听众直接比较两个 TTS 输出。尽管主观测试可靠,但需要投入大量时间和资源才能获得具有统计意义的结果。开发者通常使用 Amazon Mechanical Turk 等平台进行众包评分,但听众背景的差异可能会引入可变性。
客观信号测量指标 客观指标量化合成语音和参考(自然)语音信号之间的差异。梅尔倒谱失真(MCD)通过比较合成音频和自然音频的梅尔频率倒谱系数(MFCCs)来测量频谱差异——MCD 值越低表示质量越好。词错误率(WER)通过自动语音识别(ASR)系统转录 TTS 输出并与原始文本进行比较来评估清晰度。例如,WER 为 5% 表示准确度很高,而 20% 则可能存在发音错误或伪影。基于时长的指标,如音素时长误差,通过测量时间匹配不良来评估韵律。尽管这些指标效率高,但它们无法完全捕捉感知质量,因为微小的信号差异可能不会影响人类的评分。
自动化算法评分 近期进展利用机器学习模型来预测主观评分,无需人类听众。例如,TTS MOS 预测器是经过 MOS 数据集训练的神经网络,可直接从音频估计自然度分数。Google 的 平均意见得分预测(MOSNet) 或 NVIDIA 的 基于 Tacotron 的评估器 等工具都属于此类。另一种方法是说话人相似度得分,它使用嵌入(例如来自预训练的说话人验证模型)来衡量 TTS 系统模仿目标说话人声音的程度。这些自动化方法具有可扩展性,但需要大型、多样化的训练数据集才能推广到不同的语言和口音。
实际上,开发者会结合使用多种指标。例如,TTS 流水线可能在训练过程中使用 MCD 和 WER 来优化模型参数,然后在部署前进行 MOS 测试。平衡效率和准确性可以确保同时解决技术和感知质量问题。