数据增强可以通过减少模型记忆不正确示例的倾向,并鼓励它专注于可泛化的模式来减轻噪声标签的影响。噪声标签(不正确或标记错误的数据点)通常导致模型过度拟合错误,尤其是在训练数据有限时。 通过生成现有数据的各种变体(例如,旋转图像、向音频添加背景噪声或改写文本),增强会增加数据集的有效大小。 这迫使模型依赖于增强样本之间共享的更广泛的特征,而不是记忆与噪声标签相关的特定伪影。 例如,如果将狗的图像错误标记为猫,则应用旋转、裁剪或颜色偏移会创建图像的多个版本。 模型现在必须将这些变化与相同的错误标签协调起来,随着不一致性的增加,这变得更加困难。 随着时间的推移,由于相互冲突的信号,模型可能会降低此类示例的权重,从而降低它们的影响。
另一种方法是使用增强来识别和纠正标签错误。 当模型在增强数据上进行训练时,它们对转换样本的预测可以揭示不一致之处。 例如,如果模型始终对最初标记为“猫”的图像的所有增强版本预测“狗”,则这种差异表明标签可能不正确。 开发人员可以标记此类示例以进行手动审查或自动更正。 诸如“测试时增强”之类的技术扩展了这个想法:在推理过程中,评估样本的多个增强版本,并聚合最终预测。 如果原始标签与大多数增强预测相冲突,则表明存在潜在的噪声。 这种方法在主动学习管道中特别有用,在这些管道中,不确定或冲突的预测指导重新标记工作。
最后,将数据增强与噪声鲁棒算法相结合可以增强对标签错误的弹性。 例如,MixUp(一种混合图像及其标签对的技术)可以通过将各个噪声标签与其他标签平均来稀释其影响。 类似地,协同教学框架同时训练两个模型,其中每个模型根据与另一个模型的一致性选择其认为“干净”的数据。 增强扩大了候选样本池,从而提高了识别可靠示例的机会。 在文本任务中,反向翻译(将文本翻译成另一种语言再翻译回来)会生成释义版本,这可以帮助模型区分真实的语言模式和标签噪声。 通过将增强与这些策略集成,开发人员可以创建在自然抑制标签错误影响的同时学习鲁棒特征的系统。