数据增强通过人为地扩展训练数据的多样性和数量,从而提升半监督学习 (SSL) 的性能,使模型能够学习到更鲁棒和更具泛化能力的模式。在 SSL 中,标记数据有限而未标记数据丰富,数据增强通过创建保留语义意义的现有数据变体来弥合这一差距。这迫使模型关注不变特征,而不是记忆有限的示例。例如,对未标记图像应用旋转或噪声等变换,可以鼓励模型对同一输入的修改版本产生一致的预测,这是 FixMatch 或 Mean Teacher 等 SSL 方法的核心原则之一。
一个关键机制是一致性正则化,其中数据增强确保模型在受控失真下表现可预测。例如,在图像任务中,对未标记数据应用随机裁剪、颜色抖动或高斯模糊会创建同一图像的“视图”。训练模型使预测在这些视图之间保持一致,从而有效地学习哪些特征(例如,物体形状)重要,哪些是噪声(例如,光照变化)。同样,在文本 SSL 中,同义词替换或标记掩码等技术有助于模型泛化到释义的句子。通过强制预测在增强样本上保持稳定性,模型避免了对稀疏标记数据的过拟合,并更有效地利用了未标记数据。
数据增强还通过模拟现实世界的变异性来减轻过拟合。例如,在音频 SSL 中,添加背景噪声或时间拉伸录音可以确保模型不依赖于有限标记数据集中特有的伪影。这在低标记率情景中至关重要:如果只有 10% 的数据被标记,模型可能会抓住表面模式(例如,特定的图像背景)。数据增强通过引入受控变异来打破这些虚假的相关性。RandAugment 等工具可以自动选择增强强度,平衡失真水平以避免破坏语义内容。通过将模型暴露于更广泛的特征空间,数据增强有助于 SSL 即使在标记极少的情况下也能实现接近完全监督方法的性能。