在文本转语音 (TTS) 系统中,韵律指的是使合成语音听起来自然且富有表现力的重音、语调和节奏的模式。它通过语言分析、声学建模和语境理解相结合来生成。现代 TTS 系统,特别是那些基于神经网络的系统(如 Tacotron 或 FastSpeech),会分析输入文本以预测韵律特征,例如音高(基频)、持续时间(音素的时序)和能量(响度变化)。这些模型在大量录制的人类语音数据集上进行训练,从而学习文本元素(单词、标点符号、语法)与相应的声学模式之间的相关性。例如,问号可能会触发句子末尾的音调上升,而强调的单词可能会以增加的持续时间和能量来呈现。
该过程首先进行文本标准化和语言特征提取。 TTS 管道将输入文本分解为音素(语音),识别句法结构,并检测语用线索,如强调或情感。例如,句子“她说什么?”将需要系统识别斜体字“什么”作为焦点词,从而提示音高突增和持续时间延长。来自基于 Transformer 的架构(例如 BERT)的上下文嵌入通常用于捕获更广泛的语义含义,帮助模型区分同形异义词,例如“read”(现在时)和“read”(过去时),这些词需要不同的重音模式。此外,系统可能会合并停顿预测 - 例如在逗号后插入短暂的沉默 - 以模仿自然的语音节奏。
用于韵律生成的具体技术包括预测每个音素应持续多久的持续时间模型和塑造语调的音高轮廓预测器。例如,在神经 TTS 模型中,持续时间预测器可能会为重读音节分配更多时间(例如,“prosody”中的“pro-”),而音高预测器可确保声音在“Is he coming?”上扬,而在“He’s coming.”上降低。一些系统使用变分自动编码器 (VAE) 或韵律嵌入来捕获潜在的韵律特征,从而可以控制风格(例如,快乐与中性)。仍然存在挑战,例如处理模棱两可的强调(例如,“I never said she stole my money”根据重音有七种可能的含义)或合成情感变化。开发人员可以使用诸如 Montreal Forced Aligner 之类的工具进行音素对齐,或者微调诸如 ESPnet 之类的开源模型以编程方式调整韵律参数。