小样本学习模型通过利用预训练期间获得的先验知识,以最少的训练数据适应新任务。 这些模型不是从头开始学习每个任务,而是使用从类似任务或大型数据集中学习到的模式,在有限的示例中做出明智的预测。 例如,在数千个图像类别上预训练的模型可能会学习诸如边缘、纹理或对象形状之类的视觉特征。 当呈现一个新任务时(例如,仅使用三个图像对五种动物物种进行分类),它应用这些通用特征来区分新类别,而无需进行广泛的重新训练。 这种方法类似于转移广泛的知识来解决特定的、数据稀缺的问题。
两种常见技术实现了小样本学习。 首先,**基于度量的方法**训练模型来比较示例。 例如,Siamese 网络学习输入对之间的相似性度量:在推理过程中,它测量新图像与少量标记示例的接近程度。 如果“斑马”的测试图像比“长颈鹿”的测试图像更接近标记的斑马示例,则会被正确分类。 其次,诸如 Transformer 或预训练语言模型(例如 BERT)之类的**模型架构**使用注意力机制来关注有限数据中的相关模式。 在 NLP 中,通过重用其对语言结构的理解,在各种文本任务上微调的模型可以通过每个类别仅使用五个示例来适应新的意图分类任务。
开发人员可以通过将预训练模型与特定于任务的调整相结合来实现小样本学习。 例如,使用 Hugging Face 的 Transformers 库,开发人员可能会加载预训练的 BERT 模型,并在一个小数据集上对其进行微调,以进行情感分析。 该模型现有的语法和上下文知识减少了对大型标记数据集的需求。 类似地,在计算机视觉中,像 PyTorch Lightning 这样的框架能够原型化模型,这些模型使用少量示例的“支持集”来对新对象进行分类。 关键考虑因素包括选择与任务一致的基础模型(例如,图像的 ResNet)并设计一个避免过度拟合的训练循环,例如在预训练期间使用情节训练来模拟小样本场景。 这种先验知识和有针对性的适应之间的平衡使得小样本学习对于具有数据约束的实际应用变得实用。