语音识别系统的数据标注涉及使用准确的文本转录和附加元数据来标记原始音频数据,以创建训练数据集。该过程首先收集代表目标用例的各种音频样本,例如电话呼叫、语音命令或会话语音。然后,人工标注员逐字转录音频,不仅捕获所说的单词,还捕获非语言元素,如停顿、填充词(“嗯”、“啊”)和说话人变化。对于多语言系统,这包括不同口音的翻译和语音标注。诸如标注软件(例如,Praat、ELAN)或众包平台(例如,Amazon Mechanical Turk)之类的工具通常用于将文本与音频中的精确时间戳对齐。
质量控制对于确保一致性和准确性至关重要。标注员遵循严格的指南来处理边缘情况,如背景噪音、重叠的语音或不常见的发音。例如,带有汽车噪音的录音可能被标记为“speech_in_noise”,以帮助模型区分人声和干扰。多个标注员可能会审查相同的样本,并且通过协商一致或专家仲裁来解决分歧。某些系统使用自动检查,例如将转录内容与强制对齐工具进行比较,该工具将音素映射到音频片段。此步骤确保文本与声学特征匹配,这对于训练声学模型以识别声音模式尤其重要。
然后,对标注的数据进行结构化以用于机器学习管道。转录内容被标记化为单词或子词单元(如 Byte Pair Encoding 令牌),并与相应的音频特征(例如,梅尔频率倒谱系数)配对。对于上下文感知模型,可能包括其他元数据,如说话人人口统计信息或领域标签(例如,“医疗”、“金融”)。像 LibriSpeech 或 Common Voice 这样的开源数据集展示了这种结构,提供了对齐的音频文本对。开发人员通常通过合成变体(例如,音高变化或添加的噪音)来增强此数据,以提高鲁棒性。最终数据集训练系统将声学信号映射到文本,同时概括口音、噪音条件和说话风格。