语音识别技术的历史跨越数十年,以算法、计算能力和数据可用性的逐步发展为标志。20 世纪中叶的早期系统依赖于简单的模式匹配技术。 例如,贝尔实验室的“奥黛丽”系统 (1952) 可以通过分析声波来识别口语数字。 这些系统仅限于小词汇量,并且需要说话者在单词之间停顿。 在 1970 年代,卡内基梅隆大学的“竖琴”使用基于音素的模型将功能扩展到大约 1,000 个单词,但由于噪声敏感性和缺乏上下文理解,性能仍然很脆弱。 这些早期方法依赖于手工制作的规则,并且计算量很大,限制了实际使用。
1980 年代和 1990 年代见证了向统计方法的转变,特别是隐马尔可夫模型 (HMM),它将语音建模为声音的概率序列。 HMM 允许系统处理更大的词汇量和连续语音。 例如,Dragon Dictate (1990) 成为首批具有商业可行性的听写工具之一,但它要求用户训练软件以适应他们的声音。 IBM 的 ViaVoice (1996) 通过与说话者无关的模型进一步提高了可用性。 在此期间,像 n-gram 这样的语言模型开始整合上下文词概率,从而能够更好地纠错。 然而,由于依赖于预定义的语言规则和有限的训练数据,准确性停滞不前。
2000 年代深度学习的突破改变了语音识别。 神经网络,特别是循环 (RNN) 和卷积架构 (CNN),通过直接从数据中学习特征来取代 HMM。 谷歌的语音搜索 (2008) 利用大规模数据集和分布式计算来训练对口音和噪音具有鲁棒性的模型。 端到端模型的引入,例如百度的 Deep Speech (2014) 和后来的基于 Transformer 的架构(例如,OpenAI 的 Whisper,2022),消除了对手工制作组件的需求,从而可以直接将音频映射到文本。 现代系统使用诸如注意力机制和自监督学习(例如,wav2vec 2.0)之类的技术来实现跨语言的人类水平的准确性。 像 Kaldi 和 TensorFlow ASR 这样的开源框架现在允许开发人员构建自定义模型,从而使曾经是专有技术的技术大众化。