数据增强通过人为增加少数类别的表示,减少模型训练中的偏差,从而提高不平衡数据集上的性能。当数据集中的类别样本量非常少时,模型倾向于优先学习多数类别的模式,导致在代表性不足的群体上泛化能力较差。数据增强通过为少数类别创建新的、合成的训练示例来解决这个问题,从而平衡数据集,并为模型提供更多机会来学习所有类别的有意义的特征。这有助于防止对多数类别过拟合,并提高模型的泛化能力。
常见的技术因数据类型而异。对于图像数据,旋转、翻转、裁剪或调整亮度/对比度等方法会生成现有图像的变体。对于文本,技术包括同义词替换、释义或反向翻译(将文本翻译成另一种语言再翻译回来)。在表格数据中,像 SMOTE(合成少数过采样技术)这样的方法通过在现有少数类别实例之间进行插值来创建合成样本。例如,在医疗诊断数据集中,只有 5% 的病例是某种罕见疾病的阳性病例,应用 SMOTE 可能会通过结合真实患者的特征来生成合成的阳性病例,从而确保模型不会忽略这个关键但很小的类别。这些方法不会添加新的信息,而是以模拟现实变化的方式重复使用现有数据。
然而,必须小心应用数据增强。过度增强少数类别会导致嘈杂或不真实的样本,从而使模型感到困惑。例如,水平翻转手写数字“6”会将其变成“9”,如果原始标签未调整,这将是不正确的。开发人员应验证增强的数据是否与真实世界的场景相符。将数据增强与其他技术(如调整损失函数中的类别权重或对多数类别进行欠采样)相结合通常会产生更好的结果。通过平衡数据集并使模型接触到不同的示例,数据增强可确保训练侧重于所有类别(而不仅仅是频率最高的类别)中的有意义的模式。