联邦学习 (FL) 中的差分隐私 (DP) 是一种保护个人数据隐私的技术,同时允许跨去中心化设备训练机器学习模型。 在 FL 中,数据保留在用户设备(例如,智能手机、物联网传感器)上,并且仅模型更新(而非原始数据)与中央服务器共享。 DP 向这些更新或聚合过程添加经过仔细校准的噪声,确保无法对任何单个用户的数据进行逆向工程或识别。 这种方法平衡了隐私和效用,从而实现协作模型训练,而无需暴露敏感信息。
在 FL 中实施 DP 通常涉及两个阶段:本地处理和安全聚合。 例如,每个设备可能会在其模型梯度中添加噪声(例如,使用高斯或拉普拉斯机制),然后再将其发送到服务器。 噪声幅度由 epsilon (ε) 等参数控制,epsilon (ε) 量化了隐私保证——较小的 ε 意味着更强的隐私。 此外,通常应用梯度裁剪来限制任何单个数据点的影响。 当服务器聚合来自数千个设备的更新时,噪声会平均化,从而在模糊个人贡献的同时保持模型准确性。 谷歌的 TensorFlow Privacy 或 PyTorch 的 Opacus 等工具提供了库,可将 DP 集成到 FL 工作流程中,从而自动执行噪声注入和裁剪等步骤。
一个实际的例子是在智能手机上训练下一个单词预测模型。 如果没有 DP,来自一个用户的消息中的常用短语可能会泄露到共享模型中。 使用 DP,噪声可确保独特的短语不会不成比例地影响全局模型。 但是,存在一些权衡:过多的噪声会降低模型性能,并且调整 ε 需要进行测试。 在医疗保健 FL 中,医院在诊断模型上进行协作,DP 可防止患者数据泄露,但可能需要更多的参与者数量才能保持准确性。 开发人员必须试验噪声水平、聚合频率和模型架构,以优化其特定用例的隐私效用平衡。