DeepSeek 在模型训练期间采用多层加密来保护数据,重点关注静态数据、传输中的数据和处理中的数据的安全。对于静态数据,例如存储在数据库或云存储中的数据集,DeepSeek 使用 AES-256 等行业标准加密协议。这确保原始数据、预处理数据集和训练检查点在磁盘或存储系统上保持加密状态。例如,如果训练数据存储在 AWS S3 中,可能会应用 AWS Key Management Service (KMS) 进行服务器端加密,以便在文件写入磁盘之前自动对其进行加密。同样,数据备份或快照也会进行加密,以防止未经授权的访问,即使物理存储介质遭到破坏也是如此。
在数据传输过程中,DeepSeek 使用 TLS 1.2 或更高版本来加密传输中的数据,从而保护通信通道。这适用于各种场景,例如将原始数据从用户端点传输到训练集群,在分布式系统中的微服务之间移动数据,或在联邦学习设置中跨节点同步模型更新。例如,当客户端通过 API 上传数据集时,TLS 可确保有效载荷进行端到端加密。在内部,训练流程中的服务间通信(例如,数据加载器和预处理模块之间)可能使用相互 TLS (mTLS) 来进行额外的身份验证和加密。云环境中的 VPN 或私有子网等网络级安全措施进一步将训练基础设施与公共访问隔离。
对于在训练期间正在积极处理的数据,DeepSeek 将加密与严格的访问控制和基于硬件的安全措施相结合。训练作业通常在带有防火墙、限制入站/出站流量的隔离式虚拟私有云 (VPC) 中运行。内存中数据的临时解密受到严格管理——密钥可能存储在硬件安全模块 (HSM) 或基于云的 KMS 系统中,并带有自动轮换策略。例如,训练模型的 GPU 集群可能仅在初始化阶段从 HSM 获取解密密钥,确保密钥不会在日志或运行时内存中暴露。此外,可以集成 TensorFlow Privacy 或 PyTorch 的加密工具包等框架,以对敏感操作应用差分隐私或加密计算等技术,在梯度更新或推理期间增加另一层保护。训练后,内存或临时存储中的数据残余会使用 shred
等工具或云提供商特定的数据销毁 API 进行安全擦除。