文本转语音(TTS)系统将书面文本转换为语音音频,由三个核心组件组成:文本处理、声学建模和波形合成。每个组件负责转换过程中的特定阶段,确保输出清晰自然。下面我们详细解释这些组件。
第一个组件是文本处理,负责准备用于合成的原始文本。这包括规范化缩写、数字和符号(例如,将“$20”转换为“twenty dollars”,将“Dr.”转换为“Doctor”),将句子分割成词或子词单元,并分析词性等语言特征。例如,“read”一词根据上下文(“I will read” 对比 “I read yesterday”)发音可能不同。语音转换在此也非常关键,它使用规则或字典将词映射到它们的语音表示形式(例如,将“cat”转换为 /kæt/)。韵律预测——确定节奏、重音和语调——通常是此阶段的一部分,因为它会影响语音听起来的自然程度。
第二个组件是声学建模,它生成代表语音的声学特征。现代 TTS 系统通常使用在配对文本-音频数据上训练的神经网络(例如 Tacotron、FastSpeech)来预测梅尔谱图等特征。这些特征捕捉语音的音色、音高和时序。例如,模型可能会学到句子末尾的问号需要升调。声学模型的质量直接影响输出的自然度。有些系统使用持续时间模型将音素与特定的时间段对齐,确保音节不会被不自然地截断或拉伸。
最后一个组件是波形合成(或声码器),它将声学特征转换为可听的语音。传统的声码器,如 Griffin-Lim,从谱图重建波形,但通常产生机械感的声音。神经声码器,如 WaveNet 或 HiFi-GAN,使用深度学习生成高保真音频。例如,WaveNet 处理梅尔谱图以生成 24 kHz 的原始波形样本,捕捉诸如呼吸声之类的细微细节。声码器的效率影响实时性能,而其准确性决定了清晰度。总的来说,这些组件构成了一个流程,其中文本首先被分析,然后映射到声音特征,最后被渲染成可听的语音。