大型语言模型 (LLM) 中的量化是一种降低模型参数数值精度,从而使模型更小、运行更快的技术。量化不是使用高精度数据类型(如 32 位浮点数)来表示权重和激活,而是使用较低精度的格式,如 16 位浮点数、8 位整数,甚至 4 位值。此过程缩小了模型的内存占用并加快了计算速度,这对于在资源有限的设备(如智能手机或边缘硬件)上部署 LLM 至关重要。例如,使用 8 位整数而不是 32 位浮点数的模型将其内存使用量减少约 75%,使其能够在功率较低的硬件上高效运行,而无需进行重大架构更改。
TensorFlow Lite 或 PyTorch 的量化工具等框架中可以看到量化影响的实际示例。 这些工具允许开发人员应用训练后量化,其中预训练模型在训练后被转换为较低精度的格式。或者,量化感知训练模拟训练期间的较低精度,以最大限度地减少精度损失。例如,使用 32 位参数的 1.5GB 模型在量化为 8 位时可能会降至 400MB,从而可以在移动应用程序上部署。量化还提高了推理速度,因为整数或低位浮点运算需要的计算资源更少。 GPU 或专用 AI 芯片(例如,TPU)等硬件可以更快地执行这些操作,从而减少了聊天机器人或翻译服务等实时应用程序的延迟。
但是,量化涉及权衡。降低精度会导致精度损失,因为低位表示可能无法捕获数据中的细微模式。例如,与原始 32 位版本相比,将模型量化为 4 位可能会降低其处理细微语言任务的能力。为了缓解这种情况,开发人员经常使用混合方法,量化不太关键的层,同时保持敏感层具有更高的精度。测试对于确保量化模型满足性能要求至关重要。在速度和资源效率超过轻微精度下降的场景中,量化最有价值,例如在嵌入式系统上部署 LLM 或为数百万用户扩展推理。通过平衡效率和准确性,量化使先进的 AI 模型可用于实际的现实世界用途。