在联邦学习中,**全局模型**是一个共享的机器学习模型,它由多个分散的设备或服务器协同训练,而无需集中它们的原始数据。 每个参与者(例如,智能手机、物联网设备或本地服务器)都在自己的数据上训练一个本地模型,而不是将数据发送到中央服务器。 然后,将这些本地更新聚合起来以创建全局模型,该模型用作从所有参与者那里学到的知识的统一表示。 例如,在智能手机键盘应用程序中,各个设备可能会在本地训练用户的打字模式,并且只有模型更新(而不是实际的击键)会合并到全局模型中,从而改进所有用户的自动更正功能。
全局模型是通过迭代过程构建的。 首先,中央服务器初始化一个基本模型(例如,具有随机权重的神经网络)并将其分发给参与者。 每个设备都使用其本地数据训练此模型,通常通过诸如随机梯度下降之类的方法,并将更新后的模型参数发送回服务器。 然后,服务器聚合这些更新(通常通过平均参数(一种称为联邦平均或 FedAvg 的技术))以生成新的全局模型。 这个周期重复进行,随着时间的推移完善全局模型。 例如,在医疗保健场景中,医院可能会在本地训练患者记录,服务器会合并他们的更新以创建全局诊断模型,而无需暴露敏感数据。
全局模型的关键优势是实现保护隐私的协作,因为原始数据永远不会离开本地设备。 它还可以很好地扩展到大型分布式系统。 但是,挑战包括处理设备之间非同分布(非 IID)的数据——例如,如果某些智能手机主要具有英文文本数据,而另一些则具有西班牙语文本数据——这可能会使全局模型产生偏差。 通信效率是另一个问题,因为设备和服务器之间的频繁更新可能会消耗资源。 尽管存在这些挑战,全局模型仍然是联邦学习的基础,为医疗保健、金融和物联网等行业提供实用的解决方案,在这些行业中,数据隐私和法规遵从性至关重要。