Tacotron 2 是 Google 开发的一种神经文本到语音 (TTS) 模型,通过将序列到序列架构与深度学习技术相结合,显著提高了 TTS 质量。 它使用带有注意力机制的编码器-解码器结构从文本生成梅尔频谱图,然后使用类似 WaveNet 的声码器将其转换为原始音频。 这种方法消除了对手工语言特征和手动对齐规则的需求,使模型能够直接从文本-音频对中学习。 通过专注于端到端训练,Tacotron 2 简化了 TTS 流程,同时与早期系统(如拼接或参数模型)相比,生成了更自然的语音。
该模型的关键技术改进包括更好的韵律(节奏和语调)和减少了合成语音中的伪影。 例如,Tacotron 2 的编码器在字符或音素级别处理文本,通过卷积层和双向 LSTM 捕获上下文关系。 注意力机制动态地将输入文本与输出音频帧对齐,使模型能够处理复杂的发音和长句子而不会失去连贯性。 此外,生成梅尔频谱图作为中间步骤(而不是传统的线性频谱图)提高了效率和音频质量,因为梅尔标度更符合人类听觉灵敏度。 这些创新使 Tacotron 2 成为自然度的基准,在评估中实现了接近人类录音的平均意见得分 (MOS)。
从开发人员的角度来看,Tacotron 2 的开源实现和模块化设计实现了实际的进步。 它的代码库成为自定义 TTS 系统的基础,允许团队在特定领域的数据(例如,医学术语或地区口音)上微调模型,而无需重建整个流程。 与 WaveGlow 等较新的声码器集成进一步降低了推理延迟,从而使实时合成成为可能。 例如,部署语音助手或有声读物工具的公司利用 Tacotron 2 以最少的数据预处理生成富有表现力的声音。 该模型还影响了后续研究,启发了 FastSpeech(用并行生成代替了自回归解码)和多语言 TTS 适配等变体。 通过证明端到端神经 TTS 的可行性,Tacotron 2 为将自回归模型与 Transformer 架构相结合,平衡质量和计算成本,制定了路线图。