迁移学习通过利用在源语言(例如英语)上训练的预训练模型的知识,并使用目标语言的数据对其进行微调,使文本转语音(TTS)模型适应新的语言。该模型无需从头开始训练,而是重复使用跨语言通用的组件,如声学特征、韵律模式或编码器-解码器架构。例如,模型可能会保留生成梅尔频谱图的能力,但调整其发音层以匹配新语言的音素。由于该模型已经了解基本的语音合成机制,因此这种方法减少了目标语言所需的训练数据量。微调通常包括更新音素到声学映射等层的子集,同时保持其他部分(例如,声码器)固定以保持稳定性。
一个具体的例子是将 FastSpeech 2 适配到像普通话这样的声调语言。最初在英语上训练的模型了解时间和音高变化,但缺乏普通话的声调系统。通过在普通话数据上微调音高预测器和持续时间模块(与输入文本中的声调标记配对),该模型学习将声调与特定的音高轮廓相关联。像VITS(具有对抗学习的变分推理,用于端到端文本到语音)这样的多语言模型通过在多种语言上进行预训练来进一步实现这一点。当添加一种新语言时,开发者会扩展模型的语言ID嵌入,并使用混合数据集进行微调。对于低资源语言,使用共享音素清单(例如,IPA符号)等技术有助于弥合语言之间的差距。例如,通过重复使用共享元音(如/a/或/e/)的语音表示,在西班牙语上训练的模型可能会更有效地适应意大利语。
挑战包括语言结构上的不匹配,例如粘着语(如土耳其语)需要更长的语音序列。解决方案包括调整模型的输入处理(例如,扩展文本编码器的上下文窗口)或使用子词标记化。跨语言迁移还可以利用预训练的多语言文本嵌入(例如,XLS-R)来提高字素到音素的准确性。对于极低资源的情况,开发者可能会冻结声码器,并仅使用几个小时的语音来适配声学模型。诸如在 Transformer 块之间插入适配器层之类的参数高效方法,可以在不破坏基本模型稳定性的情况下实现有针对性的更新。这些策略平衡了效率和定制化,使迁移学习成为一种将TTS扩展到新语言的实用方法,而无需大量数据集或计算资源。