混合文本到语音 (TTS) 模型通过利用参数化和神经技术的优势来结合这两种方法,从而提高语音质量和灵活性。参数化 TTS 系统,例如基于隐马尔可夫模型 (HMM) 或共振峰合成的系统,使用数学规则或统计方法来生成语音参数,例如音高、持续时间和频谱特征。神经 TTS 模型,如 Tacotron 或 WaveNet,采用深度学习来直接将文本映射到原始音频波形。混合模型集成这些方法,通常使用参数化组件来处理结构化的语言或声学特征,并使用神经网络来生成高保真音频。
一种常见的混合方法是将合成管道分为两个阶段。例如,参数化模型可以首先分析文本以预测音素持续时间、重音模式或其他语言特征。 然后将这些输出馈送到生成最终语音波形的神经网络中。这种设置允许开发人员通过参数化层保留对诸如时序或语调之类的方面的精确控制,同时使用神经技术来生成更自然的声音音频。一个实际的例子是将基于规则的韵律模型与诸如 WaveGlow 之类的神经声码器相结合。 参数化系统确保准确的音节步调,而声码器则为声音添加了丰富性和表现力。
混合模型的好处包括提高适应性和效率。参数化组件降低了纯神经系统的数据饥渴性,因为规则或统计先验可以弥补有限的训练数据。与此同时,神经网络处理语音中的复杂模式,这些模式是参数化模型难以处理的,例如自然发音的呼吸声或情感变化。例如,混合系统可以使用 HMM 来预测基本的声学特征,并使用循环神经网络 (RNN) 将其细化为波形。这种分工允许开发人员微调语音的特定方面(例如,通过参数调整来调整说话人身份),而无需重新训练整个神经模型。通过合并这些技术,混合 TTS 实现了可控性和音频质量之间的平衡,而独立方法通常缺乏这种平衡。