Transformer 架构通过解决早期方法的关键局限性,显着改进了文本转语音 (TTS) 系统。 传统的 TTS 模型,例如基于循环神经网络 (RNN) 或卷积网络 (CNN) 的模型,通常难以处理文本中的长距离依赖关系和低效的训练。 Transformer 通过其自注意力机制并行处理整个输入序列,从而更好地建模远距离单词或音素之间的关系。 这带来了更快的训练、更自然的韵律以及处理各种语言特征的更大灵活性。
一个主要影响是转向非自回归 TTS 模型,该模型并行生成语音而不是顺序生成。 例如,谷歌的 FastSpeech 和 FastSpeech 2 使用基于 Transformer 的架构来一次性预测所有 token 的语音特征(例如持续时间和音高),与 Tacotron 等自回归模型相比,大大减少了推理时间。 这种并行处理还可以通过最大限度地减少步骤之间的错误传播来提高稳健性。 此外,Transformer 本身处理可变长度输入的能力简化了语音克隆或多语言合成等任务。 像 VITS(基于 Transformer 的变分推理)这样的模型将 Transformer 主干与变分自动编码器相结合,以生成具有更少伪影的高质量、富有表现力的语音。
另一个关键进步是韵律控制。 Transformer 擅长捕捉上下文,允许 TTS 系统生成更自然的语调和节奏。 例如,微软的 YourTTS 使用 Transformer 层来建模特定于说话者的措辞和强调,从而可以对语音风格进行细粒度的控制。 自注意力机制还有助于更准确地对齐文本和音频特征,从而减少发音错误。 此外,预训练的 Transformer 模型(例如,BERT)可以通过迁移学习适应于 TTS,从而使系统能够利用大量的文本语料库来实现更好的语言理解。 这已被证明对资源匮乏的语言或训练数据稀缺的利基领域特别有用。
总而言之,Transformer 使 TTS 系统更快、更具可扩展性,并且能够生成具有类似人类细微差别的语音。 它们的并行架构和注意力机制解决了语音合成中的核心挑战,而它们与现代机器学习框架(例如,PyTorch、TensorFlow)的兼容性确保了易于集成到生产管道中。 因此,基于 Transformer 的模型现在是许多最先进的 TTS 系统的支柱,从云 API 到设备上的应用程序。