即使客户端连接不稳定,联邦学习也能有效工作。联邦学习的核心设计允许客户端(设备或服务器)参与模型训练,而无需持续连接。与依赖实时通信不同,客户端使用其数据执行本地训练,并在上线时定期将更新发送到中央服务器。这种异步方法适用于偶尔连接的设备,例如网络不稳定的手机或功率有限的物联网传感器。
该过程通常如下:中央服务器初始化一个全局模型并将其分发给可用的客户端。每个客户端使用其数据在本地训练模型,计算更新(例如,梯度变化或权重调整),并将这些更新发送回服务器。如果客户端在训练过程中断开连接,它可以在重新连接时恢复或重新开始该过程。服务器汇总来自每个回合中所有参与客户端的更新,即使它们在不同的时间加入。例如,一个使用联邦学习的健身应用程序可以从智能手机收集匿名化的锻炼模式。蜂窝网络覆盖不佳的设备可以在数小时或数天后上传它们的更新,而不会中断整体训练过程。
然而,间歇性连接会带来挑战。具有延迟更新的客户端可能会贡献过时的信息,这可能会减慢收敛速度或引入噪声。为了缓解这种情况,诸如加权平均(优先考虑最近的更新)或限制接受更新的年龄等技术可以帮助维持模型质量。此外,TensorFlow Federated 或 Flower 等框架包括处理部分客户端参与的内置机制。开发人员还可以实现客户端检查点,以便在连接在训练过程中断开时保存进度。虽然间歇性连接需要仔细处理,但联邦学习的灵活性使其适用于持续连接不现实的现实场景。