联邦学习允许在去中心化设备或服务器上训练机器学习模型,而无需共享原始数据。其主要类型是根据数据如何分布以及参与者如何协作来分类的。以下是三种主要方法的细分:
1. 横向联邦学习 (HFL):当参与者拥有特征空间相同但样本 ID 不同的数据集时,使用此类型。例如,多家医院可能收集相似的患者数据(例如,实验室结果、诊断),但服务于不同的患者群体。在 HFL 中,每个参与者在其数据上训练一个本地模型,然后由中央服务器聚合这些模型(例如,使用联邦平均,或 FedAvg)。聚合后的模型随后被重新分发以进行进一步训练。这种方法常见于移动键盘预测等场景,数百万用户无需暴露个人输入数据即可为共享模型做出贡献。主要挑战包括处理不均衡的数据分布以及确保设备与服务器之间的有效通信。
2. 纵向联邦学习 (VFL):当数据集共享相同的样本 ID 但特征不同时,适用 VFL。例如,银行和电商公司可能都有相同客户的数据——银行持有信用评分,而电商平台跟踪购买历史记录。在此,参与者通过使用重叠样本但不同特征来协作训练模型。通常使用安全多方计算 (MPC) 或同态加密等技术来计算联合结果,而无需暴露原始数据。一个实际例子是欺诈检测,其中结合金融和交易数据可以提高准确性。VFL 需要仔细对齐重叠样本并使用安全协议来保护隐私。
3. 联邦迁移学习 (FTL):FTL 用于处理数据集在样本和特征上都不同的情况。例如,客户数据有限的零售公司可以与另一地区规模更大的零售商合作,以改进推荐模型。迁移学习技术,例如特征映射或领域适应,可以将一个领域(例如,A 区域的用户行为)的知识应用于另一个领域(B 区域)。当数据稀缺或监管限制阻止直接协作时,这种方法非常有用。FTL 强调模型微调或中间表示共享等技术,以弥合非重叠数据集之间的差距。
每种类型都针对特定的数据分布场景,平衡了隐私、效率和模型性能。选择哪种方法取决于问题的结构、数据可用性和隐私要求。