在少样本学习中,增强通过创建现有示例的修改版本来人为地扩展小型标注数据集。这有助于模型在训练数据有限的情况下也能更好地泛化。与传统在大数据集上使用的增强不同,少样本场景需要仔细平衡,以避免过拟合同时确保多样性。目标是生成保留原始标签但引入有意义差异的变体,使模型能够在不记忆有限示例的情况下学习到鲁棒的特征。
例如,在图像任务中,旋转、翻转、裁剪或调整亮度/对比度等技术很常见。如果一个数据集只包含五张猫的图像,将它们旋转 90 度或添加轻微噪声可以创建新的训练样本,教会模型识别不同方向的猫。在文本任务中,同义词替换(例如,将“happy”改为“joyful”)、句子改写或添加语法变体可以将少量句子扩展到几十个。对于音频,音高移位或添加背景噪声可以模拟不同的录音条件。这些变换必须与任务对齐:医学影像可能使用弹性形变来模拟组织变化,而 NLP 可以采用回译(将文本翻译成另一种语言再翻译回来)来重新组织句子。
增强的有效性取决于在增加多样性的同时保留语义含义。过度增强引入不相关的变化(例如,极端的图像失真)可能会损害性能。开发者通常使用 Albumentations(用于图像)或 NLPAug(用于文本)等自动化工具来应用适合领域的变换。在实践中,将增强与元学习或迁移学习等技术结合使用可以放大其优势。例如,一个在通用图像上进行预训练并使用增强的少样本数据进行微调的模型可以更好地适应新类别。如果正确实施,增强可以减少对大型数据集的依赖,并帮助模型即使在示例很少的情况下也能处理现实世界的变异性。