SSL(自监督学习)在改善语音识别和合成系统方面发挥着关键作用,它使模型能够从原始音频数据中学习有意义的表示,而无需大量的标记数据集。 SSL 模型不是仅仅依赖转录的语音进行训练,而是在大量未标记的音频上进行预训练,从而使它们能够捕获诸如音素、语调和上下文关系之类的模式。 然后,可以使用比传统方法少得多的标记数据,对这些预训练模型进行微调,以用于特定任务,例如将语音转换为文本或生成听起来自然的合成语音。
在语音识别中,SSL 帮助模型更好地泛化到不同的口音、背景噪音和说话风格。 例如,像 wav2vec 2.0 这样的模型通过屏蔽原始音频波形的一部分并训练模型来预测被屏蔽的部分来使用 SSL。 这迫使模型学习强大的声学特征(例如,区分发音相似的单词)和上下文依赖性(例如,单词如何融入短语)。 当在较小的标记数据集上进行微调时,与从头开始训练的系统相比,这些预训练模型以更少的训练示例实现了更高的准确率。 SSL 还减少了对手工制作特征(如频谱图)的依赖,因为模型可以直接处理原始音频。
对于语音合成,SSL 使系统能够通过从未标记数据中学习节奏、情感和说话人身份等细微差别来生成更自然和富有表现力的声音。 例如,可以对模型进行预训练,以从大量不同的语音语料库中重建音频片段或预测韵律特征(例如,音高和持续时间)。 这使得合成系统可以用最少的数据模仿特定的说话人风格——这对于语音克隆等应用非常有用。 此外,SSL 还有助于将语言内容与声学变化分离,从而更容易控制合成语音属性(例如,在不改变措辞的情况下调整情感)。 通过利用 SSL,识别和合成系统在各种语言和用例中变得更加适应性强、高效且可扩展。