少样本学习模型通过利用在各种任务上训练获得的先验知识,并用最少的示例进行快速适应,来处理新的、未见的领域。这些模型旨在通过识别跨领域迁移的模式或特征,从有限的数据中进行泛化。例如,一个训练用于对动物进行分类的模型可能会重用其对形状或纹理的理解,仅通过少量带标签的图像来识别新的物种。这种适应性依赖于元学习等技术,模型在训练过程中学习一种快速适应的策略。通过模拟必须用稀疏数据解决任务的场景,模型在遇到新领域时能更好地调整参数或提取有用的特征。
一个关键机制是参数初始化或微调。像 MAML(Model-Agnostic Meta-Learning)这样的模型在训练过程中优化其初始参数,以便只需进行最少更新即可适应新任务。例如,一个在通用文本上预训练的语言模型,在看到一些实验室报告示例后,可能会稍微调整其注意力机制来处理医学术语。另一种方法是基于度量的学习,模型学习一个相似性函数,用于将新示例与支持集进行比较。在图像识别中,模型可以测量未见领域图像(例如,卫星照片)的嵌入与少量带标签数据集之间的距离来进行分类,即使视觉风格与其训练数据不同。
架构选择也起着作用。一些模型使用模块化组件,可以针对新领域进行重新配置。例如,模块化神经网络可能会根据一些指示领域变化的示例,在处理法律文件或社交媒体帖子时激活特定的子模块。此外,数据增强或合成示例生成等技术有助于弥合领域差距。处理新语言文本的模型可能会使用音译或同义词替换来扩展其有限的训练示例。这些策略使少样本模型能够平衡先验知识与领域特定的调整,尽管成功与否取决于新领域与模型原始训练范围之间的重叠。例如,一个在结构化表格数据上训练的模型,除非其架构包含跨模态能力,否则可能难以处理非结构化音频输入。