客观衡量文本转语音(TTS)系统的自然度具有挑战性,因为自然度本质上是主观的,受到人类感知的影响。与延迟或词错误率等技术指标不同,自然度取决于合成语音模仿人类语音模式的程度,包括韵律、语调和节奏。这些特性很难使用传统的工程指标进行量化。例如,TTS 系统可能会生成声学上准确的音素,但如果语速或重音与人类期望不符,听起来仍然会很机械。可衡量的声学属性与感知质量之间的这种差距使得创建通用基准变得复杂。
一个主要挑战是缺乏与人类判断一致的标准化客观指标。梅尔倒谱失真(MCD)或短时客观可懂度(STOI)等指标侧重于声学相似性或清晰度,但常常无法捕捉到表现力或情感语调等细微差别。例如,TTS 系统通过与录音的频谱特征紧密匹配,可能在 MCD 上得分很高,但由于句子缺乏适当的停顿或重音,听起来仍然不自然。类似地,STOI 衡量的是可懂度,但不考虑韵律,而韵律对于自然度至关重要。开发者通常依赖人类评估员的平均意见得分(MOS),但这既昂贵又耗时,并且由于参与者的背景或评估标准不同,研究结果也会不一致。
另一个问题是语音上下文和说话人身份的可变性。自然度取决于上下文——例如,对话语气与正式叙述不同,针对一种风格训练的系统可能难以应对其他风格。此外,口音或气声等说话人特定特征也难以建模。适用于中性、单调声音的指标可能不适用于富有活力、表现力的声音。即使使用神经网络来预测人类评分,训练数据偏差也可能扭曲结果。例如,在美国英语上训练的模型可能低估英式英语中常见的韵律模式。如果没有上下文感知、自适应的指标,开发者在优化自然度时将面临泛化性与特异性之间的权衡。