监督学习和无监督学习的数据增强主要区别在于如何使用转换后的数据以及其服务的目标。在监督学习中,增强侧重于扩展带标签的数据集,以提高模型的泛化能力,同时保持标签的正确性。在无监督学习中,增强旨在创建多样化的数据变体,以帮助模型学习固有模式,而不依赖于预定义的标签。关键区别在于转换过程中标签的作用以及增强数据如何影响学习目标。
在监督学习中,每个增强样本都必须保持一个有效的标签。例如,将手写数字“7”的图像旋转 10 度,它仍然代表“7”,因此标签保持不变。翻转、裁剪或颜色抖动等技术很常见,但会改变语义意义的转换(例如,将“9”变成“6”的极端旋转)则应避免。在此处,增强起着正则化的作用,通过教会模型识别对噪声不变的核心特征来减少过拟合。一个经典的用例是图像分类:水平翻转猫的图像或调整其亮度不会改变其“猫”的标签,但这有助于模型更好地泛化到现实世界的变体。
在无监督学习中,增强生成同一数据的多个视角,以暴露其底层结构。由于没有标签,重点转移到创建多样化但语义一致的变体上。例如,在对比学习中,可以训练模型识别狗图像的裁剪灰度版本及其原始彩色版本属于同一“实例”。使用随机遮蔽、混合数据点或添加噪声等技术来迫使模型学习鲁棒的表示。聚类任务也受益于增强,通过创建突出共享特征的变体(例如,对产品图像应用不同的滤镜以按类型分组)。没有标签使得转换更加灵活,因为目标是捕获数据关系,而不是预测预定义的类别。
总而言之,监督学习的增强受到标签保存的约束,并直接与提高特定任务的准确性相关;而无监督学习的增强则通过无标签的变体优先发现潜在模式。这两种方法都利用了类似的技术(例如,旋转、噪声),但它们的实现和目的根据学习范式而有所不同。