现代文本转语音(TTS)系统中的韵律控制是通过语言分析、声学建模和显式用户参数的组合来实现的。韵律——语音的节奏、重音和语调——是通过预测这些元素应如何根据输入文本变化来生成的。神经网络,特别是像 Tacotron 或 FastSpeech 这样的序列到序列模型,分析语言特征(例如,词性标签、句子结构)以推断听起来自然的音高轮廓、音节持续时间和重音。例如,问号可能会触发升调,而陈述句可能会有降调。这些模型在标有韵律特征的语音数据集上进行训练,使它们能够推广各种输入的模式。
通常会添加显式控制机制,以允许开发人员或用户调整韵律。许多系统使用标准化标记语言(如 SSML(语音合成标记语言))来指定音高范围、语速或重音。例如,<prosody rate="slow" pitch="high">Hello</prosody>
将减慢语音速度并提高单词“Hello”的音高。一些 TTS 框架还公开了 API 以编程方式调整韵律参数,例如音节的持续时间乘数或特定单词的目标音高值。此外,诸如变分自动编码器 (VAE) 或扩散模型等较新的方法通过在训练期间将韵律特征(例如,情感、说话者风格)与语言内容分离,从而实现细粒度控制,从而允许开发人员在风格之间进行插值或应用预定义的情感音调。
高级系统使用与核心 TTS 管道协同运行的韵律预测模型。例如,谷歌的 WaveNet 或 Meta 的 StyleTTS 可能会采用韵律编码器,从参考音频中提取节奏和语调模式,然后将其传输到合成语音。或者,多任务学习设置训练模型以预测音素持续时间和音高值,同时生成原始音频。迁移学习也很常见:在非情绪化语音上训练的基础模型可以使用富有表现力的数据集(例如,带有戏剧性叙述的有声读物)进行微调,以采用特定的韵律特征。这些技术使现代 TTS 系统能够处理各种用例,从需要自然节奏的对话助手到需要情感表现力的有声读物叙述。