通过神经⽹络架构的进步、语⾔特征的更好集成以及改进的训练策略,⽂本到语⾳ (TTS) 系统中的韵律预测得到了增强。现代TTS模型,例如基于Transformer的系统或扩散模型,现在通过将韵律元素(如⾳调、持续时间和重⾳)分解为结构化组件来显式地模拟它们。例如,FastSpeech和VITS等模型使⽤持续时间预测器来更准确地将⽂本标记与⾳频帧对齐,从⽽确保⾃然的节奏。此外,⾳调轮廓通常使⽤专⽤模块单独预测,从⽽可以更好地控制语调。与较旧的序列到序列⽅法相⽐,这些架构更改使该模型能够更可靠地处理复杂的韵律模式(例如问答语调转变)。
另⼀个关键改进来⾃于利⽤更丰富的语⾔和上下⽂数据。韵律在很⼤程度上取决于语法、语义和说话⼈意图,因此现代系统会将词性标记、句法依赖关系甚⾄情感标签作为输⼊特征。例如,模型可以使⽤预训练的BERT编码器来提取上下⽂嵌⼊,从⽽捕获细微的线索,例如讽刺或紧迫性,这些线索会直接影响韵律。多任务学习也很常⻅:模型可以同时预测⾳素持续时间、⾳调值和能量级别,从⽽迫使它内化它们之间的相互依赖关系。像蒙特利尔强制对齐器这样的⼯具通过为训练提供精确的⾳素到⾳频对⻬数据来提⾼准确性,从⽽减少了单词重⾳或停顿位置的错误。
最后,变分⾃动编码器 (VAE) 或扩散模型等数据驱动的⽅法正被⽤于模拟⾃然韵律的多样性。例如,VAE可以学习韵律变化的潜在空间,从⽽使TTS系统能够从相同的⽂本⽣成不同的说话风格。扩散模型通过对⼈类语⾳的概率性质进⾏建模,擅⻓捕捉细微的韵律细微差别,该模型迭代地将嘈杂的⾳频细化为清晰的语⾳。数据集也变得更⼤且更具多样性,LibriTTS或VCTK等项⽬提供多说话⼈、多风格录⾳。韵律移植(将韵律特征从参考⾳频传输到合成语⾳)进⼀步缩⼩了合成语⾳和类⼈语调之间的差距,从⽽使输出更具表现⼒和上下⽂感知能⼒。