文本转语音 (TTS) 系统中的语音节奏和语调是通过语言分析、韵律建模和声学信号生成相结合产生的。该过程首先分析输入文本以确定句法结构、单词重音和语义强调。这些信息用于预测时序模式(节奏)和音高变化(语调),然后使用声学模型将其应用于合成语音。现代神经 TTS 系统,如基于 Tacotron 或 FastSpeech 的系统,通过在成对的文本-音频数据上进行训练来学习语言特征如何映射到声学输出,从而实现这一过程的自动化。
节奏主要通过建模韵律特征来控制,例如音节持续时间、停顿和重音。例如,TTS 系统可能会拉长重读音节中的元音("important" vs. "import"),或在逗号后插入停顿。这些决策遵循语言规则或学习到的模式。在神经网络中,会训练持续时间预测器根据上下文估计每个音素或字素应该持续多久。像“她走得很快,然后停了下来”这样的句子,在“quickly”之后可能会有短暂的停顿,而在“stopped”中音节会被拉长以传达紧迫感。系统通常使用强制对齐工具的对齐结果或序列到序列模型中的注意力机制来将文本单元映射到音频波形中的时间范围。
语调是通过预测基频 (F0) 轮廓生成的,基频轮廓定义了随时间变化的音高。例如,像“真的吗?”这样的问句可能以升调结束,而陈述句(“真的。”)则使用降调。像 WaveNet 或 HiFi-GAN 这样的神经模型通过以训练期间提取的韵律特征为条件来生成这些模式。一些系统会明确地对音高范围和斜率进行建模,而另一些则从谱数据中隐式推断它们。挑战包括保持自然的音高变化——避免机械单调——以及处理讽刺或情感语气等特殊情况。开发者可以使用 Montreal Forced Aligner 等工具来调整语言特征,或使用基于 PyTorch 的韵律预测器来微调这些方面,通常会利用带有音高和持续时间标签注释的数据集来提高准确性。