WaveNet 是 DeepMind 开发的一种深度神经网络架构,用于生成高质量的合成语音。与传统的文本转语音 (TTS) 系统依赖于拼接方法(拼接预先录制的音频片段)或参数方法(使用声码器从频谱特征合成语音)不同,WaveNet 直接对原始音频波形进行建模。通过根据先前的样本预测每个音频样本,它以样本级别生成语音,从而产生更自然的声音输出。例如,较旧的系统经常产生机器人或含糊不清的音频,因为它们无法捕捉音高、节奏或音色的细微变化。WaveNet 直接处理波形的能力消除了对中间表示的需求,使其能够重现呼吸声或情感变化等微妙细节。
WaveNet 的架构使用扩张因果卷积,这是一种神经网络层,可以扩展模型的“感受野”,即网络在预测下一个样本时考虑的音频样本范围。这些扩张层以允许网络有效地捕获短期模式(例如,音素)和长期依赖性(例如,句子级别的语调)的方式堆叠。例如,扩张因子可能会跨层呈指数级增长(例如,1、2、4、8),从而使模型能够处理过去的数千个样本,而不会产生过多的计算开销。此外,WaveNet 使用 softmax 输出层来预测离散音频样本值,通常使用 µ-law 压扩变换进行量化以降低复杂性。这种方法与较旧的声码器形成对比,后者难以从压缩的频谱数据中重建自然语音。通过在大量人类语音数据集上进行训练,WaveNet 学习生成密切模仿真实音频统计模式的波形。
WaveNet 的影响在于它能够产生几乎与人类录音无法区分的语音,为 TTS 系统设定了新的基准。对于开发人员来说,这意味着转向端到端神经方法,用在原始数据上训练的模型替换手工制作的管道。谷歌将 WaveNet 集成到 Google Assistant 等服务中,显着提高了语音质量。然而,原始模型的计算需求(实时生成每秒 16,000–24,000 个样本)带来了挑战。后来的优化,例如 Parallel WaveNet,通过使用概率密度蒸馏来训练更快的、可并行化的模型,减少了推理时间。WaveNet 还启发了 WaveGlow(将流与扩张卷积相结合)和 Tacotron 2(将 WaveNet 集成作为声码器)等架构。这些进步证明了神经波形生成的可行性,为语音以外的应用(例如音乐合成)铺平了道路。对于从事 TTS 的开发人员而言,WaveNet 的设计原则(直接波形建模、扩张卷积和自回归采样)仍然是基本概念。