OpenAI 提供了一个名为 Whisper 的语音识别模型,该模型旨在将口语转换为书面文本。Whisper 于 2022 年 9 月发布,是一个开源、通用模型,经过在互联网上大量且多样化的音频数据集上训练。它支持多种语言,并且可以处理各种口音、背景噪音和技术词汇。与某些专有的语音识别系统不同,Whisper 可供开发人员免费使用、修改和集成到应用程序中。这使其成为需要转录、语音命令或多语言支持而无需依赖付费服务的项目的实用选择。
Whisper 使用基于 Transformer 的架构构建,类似于 GPT 等模型,但专为音频处理而定制。它以 30 秒的块处理音频,在生成文本输出之前将原始音频信号转换为频谱图。该模型经过训练,可以执行转录(适用于任何语言的音频)和翻译(从非英语语言到英语)。开发人员可以通过 OpenAI 的 API 访问 Whisper,也可以下载开源版本以在本地运行。例如,使用 Python openai
库,您可以使用几行代码转录音频文件:client.audio.transcriptions.create(file=audio_file, model="whisper-1")
。可在 GitHub 上找到的本地版本允许针对特定用例进行自定义,例如在特定领域的词汇上进行微调或优化延迟。
虽然 Whisper 功能强大,但它也有局限性。例如,它的大尺寸(例如,“large” 变体需要超过 3GB 的内存)对于移动或嵌入式系统可能不切实际。由于其基于块的设计,实时处理也具有挑战性,尽管开发人员可以通过分段流式传输音频来缓解这种情况。此外,虽然它可以很好地处理多种语言,但性能会因训练数据的可用性而异 - 像英语或西班牙语这样的语言比不太常见的语言具有更高的准确性。尽管存在这些限制,Whisper 仍然是创建字幕、分析客户支持电话或构建语音启用应用程序等任务的多功能工具。开发人员应评估延迟、硬件要求和语言支持等因素,以确定 Whisper 是否适合其项目需求。