预训练模型通过利用大量未标记数据来学习通用表示,然后可以针对特定任务进行微调,从而从自监督学习 (SSL) 中受益。 SSL 允许模型从输入数据的结构中生成自己的训练信号,从而无需手动标记。 例如,在自然语言处理 (NLP) 中,像 BERT 这样的模型通过屏蔽句子的一部分并预测缺失的单词来训练。 这个过程迫使模型理解上下文、语法和语义,而无需依赖标记的数据集。 通过从大量不同的文本语料库中学习,该模型构建了一个强大的语言理解基础,可以适应诸如情感分析或问题解答之类的任务。
自监督学习通过设计预训练任务来工作,这些任务将模型暴露于数据中有意义的模式。 在计算机视觉中,像 SimCLR 这样的模型使用对比学习,模型学习识别图像的两个增强版本(例如,裁剪或旋转)是否属于相同的原始图像。 这教会了模型识别诸如形状、纹理和对象关系之类的视觉特征。 同样,在 NLP 中,GPT 风格的模型预测序列中的下一个单词,学习单词之间的依赖关系。 这些任务旨在与数据的内在结构对齐,使模型能够捕获可推广的特征。 对于开发人员而言,这意味着模型从对该领域的强大先验理解开始,从而减少了微调所需的数据和计算。
对于开发人员来说,实际优势在于效率。 从头开始训练模型需要大量的标记数据集,创建这些数据集既昂贵又耗时。 SSL 预训练通过使用现成的未标记数据来绕过这一点。 例如,构建医学影像分类器的开发人员可以从在 SSL 任务上使用公共 X 射线数据集预训练的模型开始,即使这些数据集缺少特定的疾病标签。 使用小型的标记数据集微调此模型通常比从头开始训练获得更好的性能。 此外,SSL 模型具有灵活性:单个预训练模型可以用作多个下游任务的骨干。 例如,基于 BERT 的模型可以适应命名实体识别、文本摘要或文档分类,只需进行最少的特定于任务的调整。 这种多功能性节省了开发时间和计算资源。