尽管联邦学习采用了去中心化的方法,但它引入了独特的安全和隐私挑战。虽然它避免了共享原始数据,但在分布式设备或服务器上训练模型的过程会在三个关键领域产生漏洞:模型中毒、隐私泄露和系统级风险。了解这些弱点对于开发人员设计强大的联邦系统至关重要。
模型中毒攻击恶意参与者可以通过提交损坏的更新来操纵全局模型。例如,控制少量客户端的攻击者可以发送旨在歪曲模型预测的梯度。在联邦图像分类器中,这可能涉及微妙地更改更新,将“停车标志”错误标记为“限速标志”。此类攻击可以是有针对性的(影响特定类别)或无针对性的(总体性能下降)。聚合服务器无法完全验证本地更新(尤其是在使用简单平均时)会放大这种风险。诸如异常检测或稳健聚合(例如,截断平均值)之类的防御措施有所帮助,但需要仔细调整以避免拒绝来自非相同数据分布的合法更新。
隐私泄露即使没有原始数据交换,模型更新也可能暴露敏感信息。最近的研究表明,训练期间共享的梯度可能允许攻击者通过梯度反演等技术重建原始训练样本。例如,在联邦医疗保健模型中,可以从权重更新中部分重建患者记录。此外,成员推理攻击可以确定是否在训练中使用了特定的数据点。虽然差分隐私 (DP) 可以用噪声掩盖更新,但实施 DP 而不会严重降低模型准确性仍然具有挑战性,特别是对于复杂的模型。
系统和协调风险联邦架构本身引入了操作漏洞。受损的中央服务器可能会分发后门模型或操纵聚合规则。设备和服务器之间的通信瓶颈为中间人攻击创造了机会,尤其是在加密不是端到端的情况下。跨客户端的非 IID(非独立、同分布)数据(在移动键盘等现实场景中很常见)也会降低模型的公平性,无意中造成对弱势群体的偏见。例如,主要在城市用户上训练的联邦贷款审批模型可能对农村人口表现不佳。大规模部署中的同步挑战进一步使安全模型版本控制和更新验证复杂化。
开发人员必须通过分层防御来解决这些漏洞:安全的聚合协议、客户端身份验证以及对数据分布倾斜的严格测试以及传统的 ML 安全实践。