将联邦学习 (FL) 扩展到数十亿台设备在通信、协调和管理设备异构性方面带来了重大挑战。联邦学习涉及跨去中心化设备训练机器学习模型,而无需集中数据,这本身就避免了隐私风险,但也引入了可扩展性瓶颈。 例如,在中央服务器和数十亿台设备之间发送频繁的模型更新需要大量的带宽,即使是很小的效率低下也会迅速成倍增加。 由于连接问题,设备也可能意外地加入或退出训练,从而使同步复杂化并减慢进度。
一个主要的障碍是 通信开销。在联邦学习中,每个设备计算本地模型更新并将它们发送到中央服务器,中央服务器将它们聚合到全局模型中。对于数十亿台设备,这会产生“最后一公里”瓶颈,因为从边缘设备(例如,智能手机、物联网传感器)传输更新会耗尽网络容量。量化或稀疏化等压缩技术可以减少有效负载大小,但它们有丢失关键信息的风险。例如,数据计划有限的智能手机可能会优先仅发送最重要的模型参数,但这可能会扭曲聚合。此外,跨时区和网络条件协调更新需要自适应调度,这在大规模情况下很难实现。
设备和数据异构性 进一步使扩展复杂化。 设备在硬件(例如,低功耗传感器与高端手机)、计算能力和数据分布方面各不相同。 如果在来自混合设备的数据上训练的模型难以泛化,例如,医疗可穿戴设备生成稀疏、不规则的数据,而相机生成密集图像数据。 跨设备 的非独立同分布 (non-IID) 数据可能导致模型漂移,其中本地更新发生冲突。 例如,如果来自干旱地区的更新占主导地位,则在不同气候的设备上训练的天气预测模型可能表现不佳。 像自适应客户端选择或模型中的个性化层这样的技术可以缓解这种情况,但它们会增加复杂性。
最后,隐私和安全风险 随着规模的扩大而增加。 虽然联邦学习避免共享原始数据,但模型更新仍然可能泄露敏感信息。 例如,来自健身追踪器的梯度更新可能会无意中泄露用户的健康模式。 差分隐私 (DP) 可以用噪声模糊更新,但是随着更多设备的参与,平衡隐私保证与模型准确性变得更加困难。 像多方计算 (MPC) 这样的安全聚合协议可以在传输过程中保护更新,但它们会引入计算开销。 恶意行为者也可能利用规模来发起中毒攻击——提交虚假更新以破坏全局模型。 在数十亿台设备上检测此类攻击需要强大的验证机制,而实施这些机制需要大量资源。