DeepSeek 通过三个主要策略以更低的计算成本实现高性能:高效的模型架构设计、优化的训练技术和有针对性的硬件利用。 这些方法在保持强大模型能力的同时,降低了资源需求,使系统能够实际部署到现实世界中。
首先,DeepSeek 采用一种称为专家混合体 (MoE) 的稀疏架构。 与传统密集模型的所有参数处理每个输入不同,MoE 仅激活每个任务的专业“专家”子网络的一个子集。 例如,一个 160 亿参数的 MoE 模型可能每次推理只使用 20 亿个参数,方法是将输入动态路由到相关的专家。 与同等大小的密集模型相比,这种选择性激活减少了 70-80% 的计算量。 此外,DeepSeek 还使用知识提炼等技术,训练一个较小的模型来模仿较大的模型,从而在减少层数或缩窄注意力头的同时保持性能。 这种方法在推理过程中保持准确性,同时减少内存使用量。
其次,训练过程结合了计算优化。 DeepSeek 使用课程学习,逐步引入复杂的数据模式,而不是同时处理所有数据类型。 例如,初始训练可能侧重于常见的语言模式,然后再过渡到罕见的语法结构,从而减少训练早期不必要的计算。 混合精度训练(结合 16 位和 32 位计算)加速了运算,同时保持了数值稳定性。 动态批处理将长度相似的输入分组,以最大限度地减少填充浪费,该技术已显示可将同类系统中的 GPU 利用率提高 20-30%。 这些优化减少了训练时间和能源消耗,而不会影响模型质量。
最后,DeepSeek 通过基础设施级别的改进来优化硬件使用。 该系统采用模型并行性将大型模型拆分到多个 GPU 上,从而无需使用特殊硬件即可训练更大的模型。 梯度检查点等技术通过在反向传播期间重新计算中间值而不是存储它们来减少内存开销。 训练后量化将模型权重从 32 位转换为 8 位精度,从而将内存需求缩减 75%,同时保持 95% 以上的原始准确性。 结合 TensorRT 等优化的推理引擎,这些更改允许在消费级 GPU 上进行部署,同时保持高吞吐量。 这些硬件感知型优化使 DeepSeek 具有可访问性,而无需昂贵的专用基础设施。