SSL(自监督学习)通过使 AI 和机器学习模型能够从未标记数据中学习有意义的表示,从而减少了对人工标记数据集的依赖,使它们受益。传统的监督学习需要大量标记数据,而创建这些数据既昂贵又耗时。SSL 通过使用数据本身的结构来生成训练信号来解决此问题。例如,在自然语言处理 (NLP) 中,像 BERT 这样的模型经过训练可以预测句子中缺失的单词,从而使它们无需显式标签即可学习语法、上下文和语义关系。这种方法使模型能够利用丰富的未标记数据,这些数据通常比标记示例更容易收集。
SSL 的一个主要优势在于其提高泛化能力的能力。通过在大规模、多样化的数据集上进行预训练,模型可以学习鲁棒的特征,可以使用较小的标记数据集针对特定任务进行微调。例如,在计算机视觉中,像 SimCLR 这样的模型使用对比学习(一种 SSL)通过比较同一图像的增强版本来学习图像表示。然后,可以使用最少的标记数据将此预训练模型用于分类或对象检测等任务。同样,在语音识别中,像 Wav2Vec 2.0 这样的模型通过预测屏蔽的语音片段在原始音频上进行预训练,从而提高了标记数据稀缺的低资源语言的准确性。
SSL 还增强了可扩展性和效率。在未标记数据上进行训练使模型能够大规模地探索模式,这对于复杂的任务至关重要。例如,GPT-3 在文本生成方面的成功源于使用下一个令牌预测(一种自监督任务)在大规模文本语料库上进行预训练。开发人员可以通过迁移学习将这些预训练模型重用于下游任务,从而节省计算资源和时间。此外,SSL 降低了过度拟合狭窄标记数据集的风险,因为模型学习更广泛的数据分布。这在医疗保健等领域尤其有用,在这些领域,标记的医学成像数据有限,但 SSL 可以在未标记的扫描上进行预训练,以改进诊断工具。通过关注内在数据结构,SSL 使 AI 开发更易于访问和适应。