语音识别系统通过结合专门的语言模型、自定义词汇表和上下文感知处理来处理罕见或专业术语。 这些系统依赖于统计模式和预定义的数据将音频转换为文本,因此训练数据中不常见的词语会带来挑战。 为了解决这个问题,开发人员经常增强系统的词汇表并调整其概率计算,以便在需要时优先考虑特定领域的术语。 例如,一个医疗应用程序可能需要识别诸如“血色素沉着症”或“中性粒细胞减少症”之类的术语,而标准模型可能会错过这些术语。
一种常见的方法是使用自定义发音词典或语音注释。 语音识别器使用字素到音素模型将声音映射到文本,但专业术语通常具有非直观的发音。 通过明确定义诸如“EGFR”(一种基因缩写)之类的单词的发音(“ee-jee-eff-ar”),开发人员可以减少错误。 一些系统还允许动态词汇注入,其中上下文特定的术语会临时添加到活动词列表中。 例如,一个编码助手可能会仅在检测到与编程相关的语音时才加载诸如“gRPC”或“Kubernetes”之类的术语,从而提高准确性而不会使通用模型膨胀。
此外,现代系统使用上下文来消除棘手术语的歧义。 如果用户说“服用 5mg 的 L-DOPA”,识别器会利用周围的单词(“服用”、“mg”)来推断“L-DOPA”指的是药物而不是随机首字母缩写词。 诸如 Kaldi 或 Whisper 之类的一些框架支持在特定领域的音频数据集上进行微调,从而使模型可以学习技术术语的声学模式和语义上下文。 对于训练数据有限的罕见术语,将基于规则的模式匹配(例如用于诸如“二氯二氟甲烷”之类的术语的化学命名法规则)与神经网络相结合的混合方法通常可以提供灵活性和精确度之间的最佳平衡。