语音识别系统通常使用包含音频记录和转录文本的数据集进行训练。 这些数据集的大小、语言、声学条件和使用案例各不相同。 常见的选择包括 LibriSpeech、Common Voice 和 Switchboard,它们提供各种语音样本用于构建通用模型。 其他数据集(如 TIMIT 或 VoxCeleb)侧重于语音识别或说话人识别等特定挑战。 数据集的选择取决于目标语言、领域(例如,对话式语音与朗读语音)和噪声条件等因素。
LibriSpeech 是一个广泛使用的数据集,来源于公共领域的有声读物,提供大约 1,000 小时的英语语音。 它以其清晰的音频和标准化的训练/测试分割而受欢迎,使其成为学术研究的基准。 Mozilla 的众包项目 Common Voice 提供了一个多语言集合(100 多种语言),具有不同的口音和录音环境。 其开放许可 (CC-0) 使其在商业用途中具有实用性。 Switchboard 虽然较旧,但包含电话对话,通常用于测试对话语音模型。 TIMIT 较小(5 小时),但由于其精确的时间对齐转录,对于音素级别的分析很有价值。 对于专门的任务,CHiME 等数据集包含嘈杂的录音,用于训练鲁棒模型,而 VoxCeleb 则侧重于说话人验证,其中包含来自 YouTube 的名人访谈。
开发人员应考虑数据集大小、许可和领域相关性。 多语言 LibriSpeech(6 种语言)或 Facebook 的 VoxPopuli(23 种语言的 400,000 小时)等大型数据集支持训练多语言模型。 对于低资源语言,AISHELL(普通话)或 Babel(IARPA 资助)等项目填补了空白。 许可是至关重要的:Common Voice 允许商业用途,而其他数据集则限制重新分发。 领域不匹配(例如,在朗读语音上进行训练,但在呼叫中心进行部署)会损害性能,因此数据集应与真实世界的条件相匹配。 噪声增强技术(例如,添加来自 MUSAN 的背景声音)通常用于提高鲁棒性。 Kaldi、ESPnet 或 Hugging Face 的 datasets 库等工具简化了这些资源的使用,提供了预处理版本和标准化管道。