文本转语音 (TTS) 系统中的语音转换是将书面文本转换为代表单词应如何发音的音标序列的过程。这一步至关重要,因为书面语言通常不会直接映射到口语声音。例如,英语中字母组合“ough”在“through”、“cough”或“bough”等词中的发音可能不同。语音转换通过使用规则或预定义的词典来生成准确的发音来解决这些歧义。如果没有这一步,TTS 系统可能会错误地发音单词,从而导致不自然或令人困惑的语音输出。
该过程通常涉及两个主要阶段:文本归一化和字素到音素 (G2P) 转换。文本归一化处理格式问题,例如展开缩写词(“Dr.”到“Doctor”)或将数字转换为单词(“123”到“一百二十三”)。归一化后,G2P 算法将每个字符或字符组(字素)映射到其对应的声音(音素)。例如,单词“example”可能会被分成 /ɪɡˈzæmpəl/ 等音素。一些系统使用基于规则的方法和语言学指南,而另一些系统则依赖于在发音数据集上训练的机器学习模型。在现代 TTS 系统中,结合规则和统计数据的混合方法很常见,以平衡准确性和灵活性。
使用 TTS 系统的开发人员通常通过国际音标 (IPA) 或系统特定的语音符号等工具与语音转换进行交互。例如,Amazon Polly 使用 SSML(语音合成标记语言)标签,让开发人员可以手动调整发音,例如指定“read”应发音为 /rid/(现在时),而不是 /rɛd/(过去时)。了解语音转换有助于开发人员通过检查中间语音输出或自定义发音词典来调试问题(例如特定领域术语中的错误发音)。虽然许多 TTS API 抽象了这一层,但了解其工作原理对于微调合成语音质量至关重要,尤其是在专业词汇或具有不规则拼写规则的语言中。