当前的文本转语音 (TTS) 系统可以支持多种语言,但确切数量因提供商和所使用的方法而异。 主要的基于云的 TTS 服务,例如 Google Cloud Text-to-Speech、Amazon Polly 和 Microsoft Azure Neural TTS,通常支持 50 到 100 多种语言和变体。 例如,Microsoft Azure 的服务提供超过 330 种神经语音,涵盖 129 种语言和方言,包括加拿大法语或巴西葡萄牙语等地区口音。 谷歌的系统涵盖 50 多种语言,每种语言有多种语音选项,而 Amazon Polly 支持大约 29 种核心语言以及其他方言。 这些数字包括广泛使用的语言(例如,英语、普通话、西班牙语)和不太常见的语言(例如,冰岛语、威尔士语),但质量和语音选项可能会因数据可用性而异。
语言支持的差异源于数据资源和技术策略的差异。 像英语或德语这样的高资源语言受益于广泛的训练数据集,从而能够发出具有多样化语调的自然声音。 斯瓦希里语或泰米尔语等低资源语言可能语音选项较少,或者依赖于较旧的合成方法,如拼接 TTS,它会拼接预先录制的短语。 一些提供商还通过使用跨语言迁移学习来扩展覆盖范围,其中在高资源语言上训练的模型被调整为相关的低资源语言。 例如,一个用西班牙语训练的模型可能会针对加泰罗尼亚语进行微调。 Mozilla TTS 或 Coqui TTS 等开源框架通常开箱即用支持的语言较少(例如,10-20 种),但允许开发人员为任何具有足够音频文本配对数据的语言训练自定义模型。
开发人员应注意,“支持”并不总是意味着相同的质量或功能。 一种语言可能具有基本的合成语音,但缺乏富有表现力的神经语音或情感音调控制。 区域方言使计数更加复杂:微软的 129 种语言统计包括“英语(印度)”等变体作为单独的条目。 对于需要小众语言的项目,Meta 的大规模多语言语音项目(支持 1,100 多种语言)或 Common Voice 数据集等社区驱动的工作可以填补空白。 总而言之,虽然主流商业 TTS 服务涵盖 50-100 多种语言,但有效实施需要评估语音自然度、方言特异性和目标语言可用的 API 等因素。