迁移学习通过利用从先前任务中获得的知识,在少样本和零样本学习场景中发挥着关键作用,使模型能够良好地执行任务。在少样本学习中,模型必须仅使用少量示例来适应新任务,而零样本学习则需要在没有任何特定任务训练数据的情况下解决任务。迁移学习通过使用来自大型通用数据集的预训练参数初始化模型来解决这些挑战,使模型能够在有限或没有新数据的情况下更好地泛化。这种方法减少了大量再训练和数据收集的需求,使其在标注数据稀缺的实际应用中变得实用。
在少样本学习中,迁移学习通过在针对目标任务的小数据集上微调预训练模型来发挥作用。例如,在 ImageNet 上预训练的视觉模型只需少量标注图像即可识别新的目标类别,因为它已经理解边缘、纹理和形状等基本特征。模型只需要进行微小调整即可将其现有知识与新任务对齐。类似地,在自然语言处理(NLP)中,通过更新部分层,像 BERT 这样的模型可以使用少量标注数据集来适应分类专门文本(例如医学文档)。这种效率源于模型保留了预训练中的广泛语言模式,从而减少了对有限新数据的过拟合。
对于零样本学习,迁移学习通过辅助信息将预训练知识与未见任务联系起来,从而实现泛化。例如,CLIP(对比语言-图像预训练)在预训练期间连接图像和文本,使其无需额外训练即可使用文本描述将图像分类到新颖类别。在 NLP 中,像 GPT-3 这样的模型通过利用从不同文本语料库中学到的模式,为它们未明确训练的任务生成响应。这些模型依靠共享表示(例如词嵌入或语义关系)来推断解决方案。迁移学习弥合了预训练目标与新任务之间的差距,使得无需直接示例即可进行零样本推理成为可能。在任务快速演变的动态环境中部署模型时,这种方法尤其有价值。