在合成富有表现力的语音方面存在哪些挑战?
合成富有表现力的语音包括生成能够传达情感、语境和自然语调的口语。一个主要的挑战是准确捕捉人类交流中固有的情感和语境细微差别。例如,像“太棒了”这样的句子可以表达真诚的热情、讽刺或冷漠,具体取决于语气、音高和节奏。文本到语音 (TTS) 系统通常难以仅从文本中推断出这些细微之处,因为书面语言缺乏明确的情感标记。虽然现代系统使用标记数据集将文本映射到情感状态,但语境的模糊性(例如说话者是在开玩笑还是认真的)仍然难以解决。像“我在路上了”这样的中性短语在一种情况下听起来可能很紧急,而在另一种情况下听起来可能很放松,这需要系统做出并非总是可靠的假设。
另一个关键挑战是以听起来自然的方式对韵律(语音的节奏、重音和语调)进行建模。韵律对于使合成语音感觉像人至关重要,但以编程方式复制它是复杂的。例如,像“你明天来吗?”这样的问题需要在结尾处提高音高,而陈述句(“你明天来。”)则使用下降的音高。传统的 TTS 系统通常会生成过于平淡或不一致的韵律,尤其是对于较长的句子。神经网络可以预测音高和持续时间模式,但人类语音的可变性(例如,为了强调而停顿)很难编纂。即使是最先进的模型在将具有冲突节奏模式的单词组合在一起时,例如将缓慢、沉思的段落与突然的感叹混合在一起时,也可能产生笨拙的措辞。
第三个挑战在于数据要求和计算约束。富有表现力的 TTS 系统依赖于大型、高质量的带注释语音数据集,这些数据集的创建成本高昂且耗时。例如,记录一位配音演员以愤怒、喜悦和悲伤的情绪说出相同的句子需要精确的标记和一致性。此外,这些数据集通常缺乏口音、年龄或说话风格的多样性,从而导致有偏差或有限的输出。训练模型以处理多种情绪或适应未见过的语境也需要大量的计算资源。实时合成,例如在对话代理中在句子中间调整音调,增加了进一步的复杂性。即使使用先进的硬件,平衡延迟、质量和表现力仍然是开发人员大规模部署这些系统的障碍。