DeepSeek 通过数据清理、访问控制和主动监控等方式来处理其 AI 模型中的敏感信息。 该方法侧重于最大程度地减少敏感数据在每个阶段的暴露,从初始训练到模型部署。 通过实施技术保障和组织政策,DeepSeek 旨在降低与意外数据泄露或滥用相关的风险。
在数据预处理期间,DeepSeek 采用自动过滤来从训练数据集中删除个人身份信息 (PII) 和其他敏感内容。 例如,正则表达式模式会在信用卡号、电子邮件地址和政府颁发的 ID 格式进入训练管道之前检测并编辑这些信息。 对于非结构化数据,命名实体识别模型会标记潜在的 PII 以供手动审核。 该系统还使用令牌化技术将敏感值替换为不可逆的标识符,确保原始数据不存储在模型权重中。 如果敏感数据可能与模型性能相关(例如,医学文本分析),则合成数据生成有助于在不使用真实患者记录的情况下保持效用。
模型架构和访问控制提供了额外的保护。 DeepSeek 实施了严格的基于角色的访问控制,以控制对训练数据和模型内部结构的访问,并使用审计日志跟踪数据访问和模型修改。 对于已部署的模型,API 级别的过滤器会筛选用户输入和输出中的敏感模式,从而阻止通过对抗性提示提取训练数据的尝试。 该基础设施使用加密来保护静态和传输中的数据,并将模型权重存储在隔离的环境中。 通过自动数据保留策略和用户请求处理系统(支持数据删除工作流程),强制遵守 GDPR 等法规。 定期的第三方安全审计和红队演练会测试这些安全措施,并将发现结果纳入到保护框架的迭代改进中。