自监督学习 (SSL) 和监督学习的主要区别在于它们如何获取用于训练机器学习模型的标记数据。在监督学习中,模型从显式标记的数据集中学习,其中每个输入示例都与相应的输出标签配对。例如,图像分类模型可能在标记为“猫”或“狗”的照片上进行训练。模型的目标是将输入映射到这些预定义的标签。相比之下,自监督学习自动从未标记数据的结构中生成标签,从而无需手动注释。 SSL 模型创建替代任务(例如预测输入的缺失部分)来学习数据的有意义的表示。例如,语言模型可能会预测句子中的掩码词,使用周围的上下文作为隐式标签。
每种方法的数据要求和用例也不同。监督学习依赖于具有高质量标签的大型、精心策划的数据集,创建这些数据集可能既耗时又昂贵。这使其对于诸如对象检测或情感分析之类的明确定义的任务非常有效,在这些任务中,可以获得标记数据。但是,SSL 通过发明将数据的固有结构转化为监督的任务,来利用大量未标记数据(例如,书籍中的文本或未注释的图像)。计算机视觉中一种常见的 SSL 技术包括训练模型来预测图像的旋转角度,从而迫使其理解空间关系。这种方法在标记数据稀缺的领域(例如医学成像或多语言翻译)中特别有用,但原始数据却很丰富。
最后,训练目标和结果有所不同。监督模型针对特定标记任务的准确性进行优化,通常会产生范围狭窄但高度调整的解决方案。 SSL 模型侧重于学习数据的一般用途表示,稍后可以使用最少的标记示例对这些表示进行微调以用于多个下游任务。例如,像 BERT 这样的自监督语言模型通过预测掩码令牌来学习上下文词嵌入,然后可以将这些嵌入应用于问答或文本摘要之类的任务。这使得 SSL 成为一种预训练形式,可以减少对标记数据的依赖,同时实现跨应用程序的灵活性。相比之下,监督模型通常是为单个任务而设计的,如果任务发生变化,则需要重新训练。