联邦学习通过异步通信、自适应设备选择和容错聚合策略来管理慢速或不可靠的设备。在这种设置中,设备在其数据上训练本地模型,并将更新(如梯度或权重)发送到中心服务器。服务器将这些更新组合起来改进全局模型。慢速或不可靠的设备可能会扰乱这个过程,因此联邦学习采用了多种技术来最小化它们的影响,而无需持续连接或高性能硬件。
一种关键方法是异步模型聚合。服务器不会等待所有设备在固定的时间窗口内响应,而是处理在合理时间范围内完成训练的设备的更新。例如,服务器可能设置一个 5 分钟的窗口来收集贡献,忽略因计算能力低或连接不稳定而花费更长时间的设备。这可以防止瓶颈,并确保即使某些设备滞后也能取得进展。此外,服务器可以为单个设备分配超时时间,如果设备超出限制,则在当前轮次中放弃其参与。这避免了无限期等待,同时允许较慢的设备在其可用时在后续轮次中做出贡献。
另一种策略是在选择设备时优先考虑可靠的设备。服务器可以跟踪历史性能指标,例如设备的平均响应时间或掉线率,并排除可靠性差的设备。例如,频繁断开网络的智能手机可能会被降级优先级,直到其连接稳定。为了进一步减轻慢速设备的负担,模型压缩(例如,将权重量化为 8 位整数)或部分更新(仅发送参数的子集)等技术可以最大程度地减少数据传输和计算量。TensorFlow Federated 等框架还为失败的传输实现了重试逻辑,并通过在多个设备上复制关键训练任务来实现冗余。这些步骤确保即使某些参与者间歇性不可用或表现不佳,全局模型也能持续改进。