自监督学习 (SSL) 是一种深度学习方法,模型无需依赖手动标记的数据集即可学习数据的表示。相反,训练过程通过利用输入数据中的固有结构或关系来创建自己的“标签”。例如,模型可能会预测输入的缺失部分(例如句子中的掩码词),或者学习关联数据的不同部分(例如预测视频中的下一帧)。这与需要明确的人工注释标签的监督学习形成对比,也与侧重于在没有任何指导的情况下发现模式的无监督学习形成对比。
SSL 的一种常见工作方式是定义一个“预训练任务”,迫使模型学习有用的特征。在自然语言处理 (NLP) 中,像 BERT 这样的模型被训练来预测句子中被屏蔽的词,使用周围的上下文作为输入和隐含标签。在计算机视觉中,模型可能会被训练来预测图像的旋转角度或重建已被删除的图像部分。这些任务不需要人工注释,因为标签是从数据本身自动导出的。一旦模型学习了这些模式,学习到的特征就可以转移到下游任务,如分类或目标检测,通常只需要少量的标记示例进行微调。
SSL 的主要优势在于它能够利用大量的未标记数据,这些数据通常比标记数据集更丰富。例如,在数百万张未标记图像或文本文档上训练模型可以产生一个通用的特征提取器,经过最小的微调后,该提取器在特定任务上表现良好。这在医学成像或机器人等领域尤其有用,在这些领域,标记数据的成本很高或非常耗时。然而,设计有效的预训练任务仍然是一个挑战——选择不当的任务可能无法捕捉到有意义的特征。尽管如此,SSL 已成为现代 AI 系统的基石,实现了语言建模(GPT、BERT)和视觉(SimCLR、MAE)等领域的突破,同时减少了对昂贵的标记数据集的依赖。