是的,自监督学习 (SSL) 可以应用于监督任务和无监督任务。SSL 通过从输入数据自动生成标签来工作,无需手动标注。这种方法足够灵活,可以支持标签数据稀缺的场景(在无监督学习中很常见),也可以通过在无标签数据上预训练模型来提高监督任务的性能。其核心思想是,SSL 通过解决“前置任务”(例如,预测输入的缺失部分)来学习数据中有用的表示,然后这些表示可以应用于下游应用程序。
在监督学习中,SSL 通常用作预训练步骤。例如,在自然语言处理 (NLP) 中,像 BERT 这样的模型使用掩码语言建模进行预训练——这是一种自监督任务,模型需要预测句子中的缺失词。一旦预训练完成,BERT 可以在有标签数据集上进行微调,用于情感分析或问答等任务。类似地,在计算机视觉中,像 SimCLR 这样的模型使用对比学习(另一种 SSL 方法)在无标签图像上进行预训练,方法是比较同一图像的增强版本。这些预训练模型随后被微调用于图像分类等监督任务。在此,SSL 充当了一种利用大量无标签数据来提高监督设置中泛化能力的方式。
对于无监督任务,SSL 直接学习模式,不依赖标签。例如,自编码器被训练来重建其输入——这是一种自监督任务——这有助于它们学习数据的紧凑表示。然后这些表示可以用于聚类或异常检测。另一个例子是预测图像的旋转角度(一个前置任务),这迫使模型理解对象的方向和结构。学习到的特征随后可以应用于图像检索或对相似图像进行分组等无监督任务。SSL 从原始数据创建有意义表示的能力使其成为纯粹监督方法和无监督方法之间的桥梁,能够适应当前任务的需求。