自监督学习 (SSL) 通过使模型能够从未标记数据中学习有意义的表示,从而提高数据效率,减少对手动注释数据集的依赖。 与需要标记示例来训练模型的监督学习不同,SSL 直接从输入数据的结构中创建训练信号。 例如,在自然语言处理 (NLP) 中,模型可能会预测句子中缺失的单词,使用周围的上下文作为输入和隐式标签。 通过从大量未标记数据(通常更容易收集)中学习,SSL 模型建立对模式的通用理解,然后可以使用较小的标记数据集针对特定任务进行微调。 这种方法最大限度地减少了昂贵的人工注释的需要,同时保持了性能。
SSL 数据效率背后的一个关键机制是它能够对辅助任务上的模型进行预训练,从而使模型暴露于广泛的数据模式。 例如,在计算机视觉中,可以训练模型来预测图像的旋转角度或重建已被遮罩的图像部分。 这些任务迫使模型学习边缘、纹理和对象关系等特征,而无需显式标签。 预训练后,可以使用更少的标记示例将模型的学习表示转移到下游任务(例如,分类或分割)。 这种迁移学习步骤是有效的,因为模型已经理解了数据域的通用特征,因此需要更少的特定于任务的标记数据来适应新目标。 例如,在 ImageNet 数据上使用 SSL 进行预训练的模型可能仅需要 10% 的标记示例即可达到与从头开始训练的模型相同的准确率。
具体的例子突出了 SSL 的实际影响。 在 NLP 中,像 BERT 这样的模型使用掩码语言建模在文本语料库上进行预训练,使其能够在情感分析等任务上表现良好,而无需最少的微调数据。 同样,在医学影像中,标记数据集很小,SSL 在未标记扫描上的预训练(例如,预测 3D 补丁关系)提高了肿瘤检测的准确性,但注释有限。 即使在语音识别中,像 Wav2Vec2 这样的模型也通过预测掩码语音段在原始音频上进行预训练,然后在小型转录数据集上进行微调。 通过利用未标记数据进行预训练,SSL 减少了手动标记的瓶颈,使机器学习在标记数据稀缺或昂贵的领域更具可扩展性。 这种方法平衡了广泛的数据利用与有针对性的效率,使开发人员能够训练强大的模型,而无需过多的标记工作。