监督学习和少样本学习都是机器学习方法,但它们在使用训练数据和处理泛化方面存在根本差异。监督学习依赖于大型标记数据集,通过示例来训练模型。每个输入(例如,图像、文本片段或传感器读数)都与相应的输出标签(例如,“猫”、“垃圾邮件”或“缺陷零件”)配对。模型通过迭代调整其参数以最小化预测误差来学习将输入映射到输出。例如,一个监督图像分类器可能需要数千张标记的猫和狗的图像才能可靠地区分它们。关键假设是训练数据全面代表问题空间,并且模型的性能在很大程度上取决于标记示例的数量和质量。
相比之下,少样本学习旨在用最少的标记数据(通常只有一到五个示例)来学习新概念或任务。当获取大型标记数据集不切实际时,这种方法很有用,例如在医学成像(罕见疾病)或自定义产品分类中。少样本模型不是在每个新任务上从头开始训练,而是利用在元训练阶段获得的先验知识,在该阶段它们学习跨不同任务进行泛化。例如,在许多文本任务(翻译、摘要)上训练的少样本语言模型可以适应像检测讽刺这样的新任务,只需少量的标记示例。度量学习(将新示例与已知示例进行比较)或参数高效微调(仅更新模型的部分)等技术在少样本设置中很常见。
主要区别在于数据需求和适应性。监督学习需要每个特定任务的大量标记数据,并且在没有重新训练的情况下难以处理未见过的类别。少样本学习强调灵活性:模型经过预训练以提取可重用的模式,并使用最少的数据快速适应新任务。例如,一个经过训练可以对 100 种动物物种进行分类的监督模型,如果没有额外的标记数据,则无法识别新物种,而一个少样本模型可以使用小型参考集来推断新类别。开发者会为数据丰富的稳定、定义明确的问题选择监督学习(例如,语音识别),而为数据稀缺的动态或利基场景选择少样本学习(例如,专用设备的自定义语音命令)。