SSL(自监督学习)通过训练模型学习数据的有意义的表示,而无需依赖标记示例,从而提高模型的鲁棒性。 这种方法迫使模型发现数据中的潜在模式和关系,从而更好地泛化和抵御真实世界输入中的噪声或变化。 通过关注数据本身的结构,SSL 减少了对表面或特定于数据集的特征的过度拟合,这在标记数据有限时在监督学习中很常见。
SSL 增强鲁棒性的一个关键方式是通过 **pretext tasks(前置任务)**,这些任务旨在让模型通过解决从数据中衍生的“难题”来学习。 例如,在计算机视觉中,模型可能会预测图像的旋转角度或重建缺失的块。 这些任务要求模型理解空间关系和对象结构,这有助于它忽略无关的噪声。 在自然语言处理中,像 BERT 这样的模型使用 masked language modeling(掩码语言建模),他们预测句子中缺失的单词。 这教会了模型掌握上下文和语法,使其在遇到模棱两可或不完整的输入时不太可能失败。 通过在这样的任务上进行训练,模型可以建立对数据分布的更一般的理解,从而提高其处理看不见的变化的能力。
另一个因素是 SSL 对数据增强和多样化训练信号的依赖。 SSL 框架通常应用 cropping(裁剪)、color distortion(颜色失真)或 noise injection(噪声注入)等转换来创建同一数据的多个视图。 例如,像 SimCLR 这样的 contrastive learning(对比学习)方法训练模型以识别图像的不同增强版本属于同一类。 这迫使模型关注 invariant features(不变特征)(例如,对象形状)而不是 transient details(瞬态细节)(例如,光照)。 此外,SSL 利用大量的未标记数据,这些数据通常比标记数据集更丰富和多样化。 接触不同的例子有助于模型适应分布变化,例如视觉任务中的新环境或语言任务中的方言。 例如,与仅在干净、标记的图像上训练的监督模型相比,在车辆的各种未标记图像上训练的视觉模型将更好地识别雾中的汽车。
最后,SSL 鼓励模型构建 hierarchical representations(分层表示)。 通过学习重建或预测输入的部分,模型可以在多个抽象级别捕获特征。 例如,在使用掩码训练的视觉转换器中,模型学习关注 local edges(局部边缘)和 global object shapes(全局对象形状)。 这种分层理解使得模型不太容易受到 partial occlusions(部分遮挡)或 adversarial perturbations(对抗性扰动)的影响。 类似地,在语音识别中,像 Wav2Vec2 这样的 SSL 模型学习从原始音频中区分 phonemes(音素)和 word boundaries(单词边界),从而提高在嘈杂环境中的性能。 通过关注 structural patterns(结构模式)而不是 surface-level correlations(表面层相关性),SSL 模型开发了对数据的更灵活和可靠的理解,这直接转化为现实世界应用中的鲁棒性。