机器学习所需的显存 (VRAM) 量取决于您执行的任务类型和模型的规模。 对于基本任务(例如训练小型神经网络,例如用于图像分类的简单 CNN 或用于文本处理的 RNN),8GB 的显存是一个实用的起点。 这使您可以处理像 CIFAR-10 或 MNIST 这样的数据集,并且使用适中的批量大小,而不会出现频繁的内存不足错误。 但是,如果您使用更大的模型(如 BERT、GPT-2 或现代视觉 Transformer),则需要 12–16GB 的显存来适应它们的参数计数和中间激活。 对于前沿研究或训练大型模型(例如具有数十亿个参数的 LLM),您可能需要 24GB 或更多,通常需要像 NVIDIA A100 或 H100 这样的专用 GPU。
具体用例说明了这些要求。 例如,在 224x224 图像上以 32 的批量大小训练 ResNet-50 模型通常使用大约 8–10GB 的显存。 如果您将分辨率增加到 512x512 或使用更大的批量大小,则显存使用量可能会跃升至 16GB 或更高。 同样,使用 16 的批量大小微调 BERT-base 模型(1.1 亿个参数)可能需要 12GB,而像 BERT-large(3.4 亿个参数)这样更大的变体可能需要 24GB。 涉及生成模型的任务(如 Stable Diffusion)通常需要至少 12GB 用于基本推理,需要 16–24GB 用于训练。 内存使用量也随数据类型而变化:与 16 位混合精度训练相比,使用 32 位浮点运算会使显存消耗增加一倍,这就是为什么像 PyTorch 和 TensorFlow 这样的框架优先在此处进行优化。
要优化显存使用,请考虑梯度检查点(在反向传播期间重新计算激活而不是存储它们)、减少批量大小或使用模型并行性等技术。 例如,将大型 Transformer 分布到多个 GPU 上可以缓解单 GPU 限制。 像 NVIDIA 的 DLProf 或 PyTorch 的内存快照这样的工具可以帮助识别内存瓶颈。 如果您的预算有限,像 RTX 3080 (10–12GB) 或 RTX 4090 (24GB) 这样的中档 GPU 可以在成本和性能之间取得平衡。 始终检查您框架的文档以了解内存要求,并从小规模配置开始,然后再扩大规模。 对于从事生产规模系统的团队来说,投资具有高显存容量的数据中心 GPU 或云实例通常对于高效的训练和推理是不可避免的。